From 766b973504293d6c73d7204d233c50c6ab98c9c1 Mon Sep 17 00:00:00 2001 From: David Young <46375780+yyysjz1997@users.noreply.github.com> Date: Sun, 7 Feb 2021 22:37:08 +0800 Subject: [PATCH] Update chapter9_questions&keywords.md --- docs/chapter9/chapter9_questions&keywords.md | 4 ++-- 1 file changed, 2 insertions(+), 2 deletions(-) diff --git a/docs/chapter9/chapter9_questions&keywords.md b/docs/chapter9/chapter9_questions&keywords.md index 8d738bf..c4791b0 100644 --- a/docs/chapter9/chapter9_questions&keywords.md +++ b/docs/chapter9/chapter9_questions&keywords.md @@ -1,13 +1,13 @@ # Chapter9 Actor-Critic -## 1 关键词 +## 1 Keywords - **A2C:** Advantage Actor-Critic的缩写,一种Actor-Critic方法。 - **A3C:** Asynchronous(异步的)Advantage Actor-Critic的缩写,一种改进的Actor-Critic方法,通过异步的操作,进行RL模型训练的加速。 - **Pathwise Derivative Policy Gradient:** 其为使用 Q-learning 解 continuous action 的方法,也是一种 Actor-Critic 方法。其会对于actor提供value最大的action,而不仅仅是提供某一个action的好坏程度。 -## 2 思考题 +## 2 Questions - 整个Advantage actor-critic(A2C)算法的工作流程是怎样的?