From cd68800b02640ebaa0587d8b433cc6352d066bc0 Mon Sep 17 00:00:00 2001
From: David Young <46375780+yyysjz1997@users.noreply.github.com>
Date: Sun, 7 Feb 2021 23:28:23 +0800
Subject: [PATCH] Update chapter12_questions&keywords.md

---
 docs/chapter12/chapter12_questions&keywords.md | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/docs/chapter12/chapter12_questions&keywords.md b/docs/chapter12/chapter12_questions&keywords.md
index cfb79d1..4b048f5 100644
--- a/docs/chapter12/chapter12_questions&keywords.md
+++ b/docs/chapter12/chapter12_questions&keywords.md
@@ -43,7 +43,7 @@
   - 分布式 critic: 不再只估计Q值的期望值，而是去估计期望Q值的分布, 即将期望Q值作为一个随机变量来进行估计。
   - N步累计回报: 当计算TD误差时，D4PG计算的是N步的TD目标值而不仅仅只有一步，这样就可以考虑未来更多步骤的回报。
   - 多个分布式并行actor：D4PG使用K个独立的演员并行收集训练样本并存储到同一个replay buffer中。
-  - 优先经验回放（Prioritized Experience Replay，PER](https://arxiv.org/abs/1511.05952）：使用一个非均匀概率 $\pi$ 从replay buffer中采样。
+  - 优先经验回放（Prioritized Experience Replay，PER）：使用一个非均匀概率 $\pi$ 从replay buffer中采样。