Update chapter1_questions&keywords.md

2021-05-24 15:00:25 +08:00
parent beafd08c46
commit 7fe103be42
1 changed files with 1 additions and 0 deletions
--- a/docs/chapter1/chapter1_questions&keywords.md
+++ b/docs/chapter1/chapter1_questions&keywords.md
@@ -74,6 +74,7 @@
 - 基于策略迭代和基于价值迭代的强化学习方法有什么区别?

  答：
+  
  1. 基于策略迭代的强化学习方法，agent会制定一套动作策略（确定在给定状态下需要采取何种动作），并根据这个策略进行操作。强化学习算法直接对策略进行优化，使制定的策略能够获得最大的奖励；基于价值迭代的强化学习方法，agent不需要制定显式的策略，它维护一个价值表格或价值函数，并通过这个价值表格或价值函数来选取价值最大的动作。
  2. 基于价值迭代的方法只能应用在不连续的、离散的环境下（如围棋或某些游戏领域），对于行为集合规模庞大、动作连续的场景（如机器人控制领域），其很难学习到较好的结果（此时基于策略迭代的方法能够根据设定的策略来选择连续的动作)；
  3. 基于价值迭代的强化学习算法有 Q-learning、 Sarsa 等，而基于策略迭代的强化学习算法有策略梯度算法等。