fix ch1 typos

2020-12-16 10:59:18 +08:00
parent 9c41bc8025
commit a5198093a9
1 changed files with 5 additions and 5 deletions
--- a/docs/chapter1/chapter1.md
+++ b/docs/chapter1/chapter1.md
@@ -33,7 +33,7 @@

 强化学习的训练数据就是这样一个玩游戏的过程。你从第一步开始，采取一个决策，比如说你把这个往右移，接到这个球了。第二步你又做出决策，得到的训练数据是一个玩游戏的序列。

-比如现在是在第三步，你把这个序列放进去，你希望这个网络可以输出一个决策，在当前的这个状态应该输出往右移或者往左移。这里有个问题，就是我们没有标签来说明你现在这个动作是正确还是错误，必须等到这个游戏结束可能，这个游戏可能十秒过后才结束。现在这个动作往左往右到底是不是对最后游戏的结束能赢有帮助，其实是不清楚的的。这里就面临一个`延迟奖励(Delayed Reward)`，所以就使得训练这个网络非常困难。
+比如现在是在第三步，你把这个序列放进去，你希望这个网络可以输出一个决策，在当前的这个状态应该输出往右移或者往左移。这里有个问题：我们没有标签来说明你现在这个动作是正确还是错误，必须等到游戏结束才可能说明，这个游戏可能十秒过后才结束。现在这个动作到底对最后游戏结束能赢是否有帮助，其实是不清楚的。这里就面临`延迟奖励(Delayed Reward)`，所以就使得训练这个网络非常困难。

 ![](img/1.5.png)

@@ -46,12 +46,12 @@
  * 探索是说你会去尝试一些新的行为，这些新的行为有可能会使你得到更高的奖励，也有可能使你一无所有。
  * 利用就是就采取你已知的可以获得最大奖励的行为，你就重复执行这个动作就可以了，因为你已经知道可以获得一定的奖励。
  * 因此，我们需要在探索和利用之间取得一个权衡，这也是在监督学习里面没有的情况。
-* 在强化学习过程中，没有非常强的 supervisor，只有一个`奖励信号(reward signal)`，就是环境会在很久以后告诉你之前你采取的行为到底是不是有效的。Agent 在这个强化学习里面学习的话就非常困难，因为你没有得到即时反馈。当你采取一个行为过后，如果是监督学习，你就立刻可以获得一个指引，就说你现在做出了一个错误的决定，那么正确的决定应该是谁。而在强化学习里面，环境可能会告诉你这个行为是错误的，但是它并没有告诉你正确的行为是什么。而且更困难的是，它可能是在一两分钟过后告诉你错误，它再告诉你之前的行为到底行不行。所以这也是强化学习和监督学习不同的地方。
+* 在强化学习过程中，没有非常强的监督者(supervisor)，只有一个`奖励信号(reward signal)`，就是环境会在很久以后告诉你之前你采取的行为到底是不是有效的。Agent 在这个强化学习里面学习的话就非常困难，因为你没有得到即时反馈。当你采取一个行为过后，如果是监督学习，你就立刻可以获得一个指引，就说你现在做出了一个错误的决定，那么正确的决定应该是谁。而在强化学习里面，环境可能会告诉你这个行为是错误的，但是它并没有告诉你正确的行为是什么。而且更困难的是，它可能是在一两分钟过后告诉你错误，它再告诉你之前的行为到底行不行。所以这也是强化学习和监督学习不同的地方。

 ![](img/1.6.png)通过跟监督学习比较，我们可以总结出强化学习的一些特征。

-* 强化学习有这个 `trial-and-error exploration`，它需要通过探索环境来获取对这个环境的理解。
-* 强化学习 agent 会从环境里面获得延迟的奖励(delayed reward)。
+* 强化学习有这个 `试错探索(trial-and-error exploration)`，它需要通过探索环境来获取对这个环境的理解。
+* 强化学习 agent 会从环境里面获得延迟的奖励。
 * 在强化学习的训练过程中，时间非常重要。因为你得到的数据都是有这个时间关联的，而不是独立同分布的。在机器学习中，如果观测数据有非常强的关联，其实会使得这个训练非常不稳定。这也是为什么在监督学习中，我们希望数据尽量是独立同分布，这样就可以消除数据之间的相关性。
 * Agent 的行为会影响它随后得到的数据，这一点是非常重要的。在我们训练 agent 的过程中，很多时候我们也是通过正在学习的这个 agent 去跟环境交互来得到数据。所以如果在训练过程中，这个 agent 的模型很快死掉了，那会使得我们采集到的数据是非常糟糕的，这样整个训练过程就失败了。所以在强化学习里面一个非常重要的问题就是怎么让这个 agent 的行为一直稳定地提升。

@@ -246,7 +246,7 @@ Policy 决定了这个 agent 的行为，它其实是一个函数，把输入的

 ![](img/1.29.png)

-当我们有了这三个成分过后，就形成了一个 `Markov Decision Process`。这个决策过程可视化了状态之间的转移以及采取的行为。
+当我们有了这三个组成部分过后，就形成了一个 `马尔可夫决策过程(Markov Decision Process)`。这个决策过程可视化了状态之间的转移以及采取的行为。

 ![](img/1.30.png)