fix some typos

2020-10-21 11:06:55 +08:00
parent 1b0043f9f5
commit 344c98165f
3 changed files with 37 additions and 24 deletions
--- a/docs/chapter1/chapter1.md
+++ b/docs/chapter1/chapter1.md
@@ -251,8 +251,8 @@ A: 对于一个状态转移概率已知的马尔可夫决策过程，我们可
 ![](img/1.34.png)
 **另外，我们是可以通过 agent 到底有没有学习这个环境模型来分类。**

-* 第一种是 `model-based(有模型)` RL agent，它通过学习这个状态的转移来采取措施。
-* 另外一种是 ` model-free(免模型)` RL agent，它没有去直接估计这个状态的转移，也没有得到环境的具体转移变量。它通过学习 value function 和 policy function 进行决策。这种 model-free 的模型里面没有一个环境转移的一个模型。
+* 第一种是 `model-based(有模型)` RL agent，它通过学习这个状态的转移来采取动作。
+* 另外一种是 ` model-free(免模型)` RL agent，它没有去直接估计这个状态的转移，也没有得到环境的具体转移变量。它通过学习 value function 和 policy function 进行决策。这种 model-free 的模型里面没有一个环境转移的模型。

 我们可以用马尔可夫决策过程来定义强化学习任务，并表示为四元组 $<S,A,P,R>$，即状态集合、动作集合、状态转移函数和奖励函数。如果这四元组中所有元素均已知，且状态集合和动作集合在有限步数内是有限集，则机器可以对真实环境进行建模，构建一个虚拟世界来模拟真实环境的状态和交互反应。

@@ -262,7 +262,7 @@ A: 对于一个状态转移概率已知的马尔可夫决策过程，我们可

 上图是有模型强化学习的流程图。

-然而在实际应用中，智能体并不是那么容易就能知晓 MDP 中的所有元素的。通常情况下，状态转移函数和奖励函数很难估计，甚至连环境中的状态都可能是未知的，这时就需要采用免模型学习。免模型学习没有对真实环境进行建模，智能体只能在真实环境中通过一定的策略来执行动作，等待奖励和状态迁移，然后根据这些反馈信息来更新行为策略，这样反复迭代直到学习到最优策略。
+然而在实际应用中，智能体并不是那么容易就能知晓 MDP 中的所有元素的。**通常情况下，状态转移函数和奖励函数很难估计，甚至连环境中的状态都可能是未知的，这时就需要采用免模型学习。**免模型学习没有对真实环境进行建模，智能体只能在真实环境中通过一定的策略来执行动作，等待奖励和状态迁移，然后根据这些反馈信息来更新行为策略，这样反复迭代直到学习到最优策略。

 Q: 有模型强化学习和免模型强化学习有什么区别？

@@ -280,8 +280,7 @@ A: 针对是否需要对真实环境建模，强化学习可以分为有模型

 有模型的强化学习方法可以对环境建模，使得该类方法具有独特魅力，即“想象能力”。在免模型学习中，智能体只能一步一步地采取策略，等待真实环境的反馈；而有模型学习可以在虚拟世界中预测出所有将要发生的事，并采取对自己最有利的策略。

-
-目前，大部分深度强化学习方法都采用了免模型学习，这是因为：
+**目前，大部分深度强化学习方法都采用了免模型学习**，这是因为：

 * 免模型学习更为简单直观且有丰富的开源资料，像 DQN、AlphaGo 系列等都采用免模型学习；
 * 在目前的强化学习研究中，大部分情况下环境都是静态的、可描述的，智能体的状态是离散的、可观察的（如 Atari 游戏平台），这种相对简单确定的问题并不需要评估状态转移函数和奖励函数，直接采用免模型学习，使用大量的样本进行训练就能获得较好的效果。