Update chapter9_questions&keywords.md

This commit is contained in:
David Young
2020-09-10 16:41:47 +08:00
committed by GitHub
parent 655d336faf
commit 13cce9e13e

View File

@@ -1,13 +1,13 @@
## Chapter9 Actor-Critic # Chapter9 Actor-Critic
#### 1 关键词 ## 1 关键词
- **A2C** Advantage Actor-Critic的缩写一种Actor-Critic方法。 - **A2C** Advantage Actor-Critic的缩写一种Actor-Critic方法。
- **A3C** Asynchronous异步的Advantage Actor-Critic的缩写一种改进的Actor-Critic方法通过异步的操作进行RL模型训练的加速。 - **A3C** Asynchronous异步的Advantage Actor-Critic的缩写一种改进的Actor-Critic方法通过异步的操作进行RL模型训练的加速。
- **Pathwise Derivative Policy Gradient** 其为使用 Q-learning 解 continuous action 的方法,也是一种 Actor-Critic 方法。其会对于actor提供value最大的action而不仅仅是提供某一个action的好坏程度。 - **Pathwise Derivative Policy Gradient** 其为使用 Q-learning 解 continuous action 的方法,也是一种 Actor-Critic 方法。其会对于actor提供value最大的action而不仅仅是提供某一个action的好坏程度。
#### 2 思考题 ## 2 思考题
- 整个Advantage actor-criticA2C算法的工作流程是怎样的 - 整个Advantage actor-criticA2C算法的工作流程是怎样的