Update chapter12_questions&keywords.md

This commit is contained in:
David Young
2021-02-07 23:28:23 +08:00
committed by GitHub
parent c1f8d31b2a
commit cd68800b02

View File

@@ -43,7 +43,7 @@
- 分布式 critic: 不再只估计Q值的期望值而是去估计期望Q值的分布, 即将期望Q值作为一个随机变量来进行估计。
- N步累计回报: 当计算TD误差时D4PG计算的是N步的TD目标值而不仅仅只有一步这样就可以考虑未来更多步骤的回报。
- 多个分布式并行actorD4PG使用K个独立的演员并行收集训练样本并存储到同一个replay buffer中。
- 优先经验回放Prioritized Experience ReplayPER](https://arxiv.org/abs/1511.05952):使用一个非均匀概率 $\pi$ 从replay buffer中采样。
- 优先经验回放Prioritized Experience ReplayPER使用一个非均匀概率 $\pi$ 从replay buffer中采样。