fix some typos

2020-11-05 19:41:58 +08:00
parent 2a0d0b4e51
commit c1c3bd8480
2 changed files with 24 additions and 11 deletions
--- a/docs/chapter1/chapter1.md
+++ b/docs/chapter1/chapter1.md
@@ -247,20 +247,33 @@ Policy 决定了这个 agent 的行为，它其实是一个函数，把输入的

 ![](img/1.30.png)

-这里我们来看一个走迷宫的例子，这个例子要求 agent 从 start 开始，然后到达 goal 的位置。这里设定的奖励是每走一步，你就会得到一个负的奖励。这里可以采取的动作是往上下左右走。当前状态用现在 agent 所在的位置来描述。
+我们来看一个走迷宫的例子。
+
+* 这个例子要求 agent 从 start 开始，然后到达 goal 的位置。
+* 这里设定的奖励是每走一步，你就会得到一个负的奖励。
+* 这里可以采取的动作是往上下左右走。
+* 当前状态用现在 agent 所在的位置来描述。

 ![](img/1.31.png)
-我们可以用不同的强化学习算法来解这个环境，如果我们采取的是 `Policy-based RL`，当我们学习好了这个环境过后，在每一个状态，我们就会得到一个最佳的行为。比如说现在在第一格开始的时候，我们知道它最佳行为是往右走，然后第二格的时候，得到的最佳策略是往上走，第三格是往右走。通过这个最佳的策略，我们就可以最快地到达终点。
+
+* 我们可以用不同的强化学习算法来解这个环境。
+* 如果我们采取的是 `Policy-based RL`，当我们学习好了这个环境过后，在每一个状态，我们就会得到一个最佳的行为。
+
+* 比如说现在在第一格开始的时候，我们知道它最佳行为是往右走，然后第二格的时候，得到的最佳策略是往上走，第三格是往右走。通过这个最佳的策略，我们就可以最快地到达终点。

 ![](img/1.32.png)
-如果换成 `value-based RL` 这个算法，利用价值函数来作为导向，我们就会得到另外一种表征。这里就表征了你每一个状态会返回一个价值，比如说你在 start 位置的时候，价值是 -16，因为你最快可以 16 步到达终点。因为每走一步会减一，所以你这里的价值是 -16。当我们快接近最后终点的时候，这个数字变得越来越大。在拐角的时候，比如要现在在第二格 -15。然后 agent 会看上下，它看到上面值变大了，变成 -14 了，它下面是 -16，那么这个 agent 肯定就会采取一个往上走的策略。所以通过这个学习的值的不同，我们可以抽取出现在最佳的策略。
+
+* 如果换成 `value-based RL` 这个算法，利用价值函数来作为导向，我们就会得到另外一种表征，这里就表征了你每一个状态会返回一个价值。
+
+* 比如说你在 start 位置的时候，价值是 -16，因为你最快可以 16 步到达终点。因为每走一步会减一，所以你这里的价值是 -16。
+* 当我们快接近最后终点的时候，这个数字变得越来越大。在拐角的时候，比如要现在在第二格 -15。然后 agent 会看上下，它看到上面值变大了，变成 -14 了，它下面是 -16，那么 agent 肯定就会采取一个往上走的策略。所以通过这个学习的值的不同，我们可以抽取出现在最佳的策略。

 ## Types of RL Agents

 ![](img/1.33.png)
 **根据强化学习 agent 的不同，我们可以把 agent 进行归类。**

-* `基于价值的 agent(value-based agent)`。这一类 agent 显式地学习的是价值函数，隐式地学习了它的策略。这个策略是从我们学到的价值函数里面推算出来的。
+* `基于价值的 agent(value-based agent)`。这一类 agent 显式地学习的是价值函数，隐式地学习了它的策略。策略是从我们学到的价值函数里面推算出来的。
 * `基于策略的 agent(policy-based agent)`。这一类 agent 直接去学习 policy，就是说你直接给它一个 state，它就会输出这个动作的概率。在这个 policy-based agent 里面并没有去学习它的价值函数。
 * 把 value-based 和 policy-based 结合起来就有了 `Actor-Critic agent`。这一类 agent 把它的策略函数和价值函数都学习了，然后通过两者的交互得到一个最佳的行为。

@@ -313,7 +326,7 @@ A: 针对是否需要对真实环境建模，强化学习可以分为有模型

 ![](img/1.36.png)

-把几类模型放到同一个饼图里面。三个组成部分：value function、policy、model。按一个 agent 具不具有三者中的两者或者一者可以把它分成很多类。
+把几类模型放到同一个饼图里面。饼图有三个组成部分：value function、policy、model。按一个 agent 具不具有三者中的两者或者一者可以把它分成很多类。

 ## Learning and Planning