fix ch1 typos

2020-10-19 10:36:10 +08:00
parent bc286958e4
commit cffbb560d3
1 changed files with 8 additions and 6 deletions
--- a/docs/chapter1/chapter1.md
+++ b/docs/chapter1/chapter1.md
@@ -201,15 +201,17 @@ Policy 决定了这个 agent 的行为，它其实是一个函数，把输入的
 ![](img/1.27.png)
 **价值函数是一个折扣的未来奖励的加和**，就是你通过进行某一种行为，然后你未来得到多大的奖励。

-价值函数里面有一个 discount factor。我们希望尽可能在短的时间里面得到尽可能多的奖励。如果我们说十天过后，我给你 100 块钱，跟我现在给你 100 块钱，你肯定更希望我现在就给你 100 块钱，因为你可以把这 100 块钱存在银行里面，你就会有一些利息。所以我们就通过把这个 `discount factor` 放到价值函数的定义里面，后面得到的奖励价值函数的定义其实是一个期望。
+价值函数里面有一个 discount factor，我们希望尽可能在短的时间里面得到尽可能多的奖励。如果我们说十天过后，我给你 100 块钱，跟我现在给你 100 块钱，你肯定更希望我现在就给你 100 块钱，因为你可以把这 100 块钱存在银行里面，你就会有一些利息。所以我们就通过把这个 `discount factor` 放到价值函数的定义里面，价值函数的定义其实是一个期望。这里有一个期望 $\mathbb{E}_{\pi}$，这里有个小角标是 $\pi$ 函数，这个 $\pi$ 函数就是说在我们已知某一个 policy function 的时候，到底可以得到多少的奖励。

-这里有一个 $\mathbb{E}_{\pi}$ 的期望，这里有个小角标是 $\pi$ 函数，这个 $\pi$ 函数就是说在我们已知某一个 policy function 的时候，到底可以得到多少的奖励。
-
-对于这个奖励函数，我们另外还有一个 Q 函数。Q 函数里面包含两个变量：状态和动作。所以你未来可以获得多少的奖励，它的这个期望取决于你当前的状态和当前的行为。这个 Q 函数是强化学习算法在学习的一个函数。因为当我们得到这个 Q 函数的过后，进入某一种状态，它最优的行为其实就可以通过这个 Q 函数来得到。
+我们还有一种价值函数：Q 函数。Q 函数里面包含两个变量：状态和动作。所以你未来可以获得多少的奖励，它的这个期望取决于你当前的状态和当前的行为。这个 Q 函数是强化学习算法里面要学习的一个函数。因为当我们得到这个 Q 函数后，进入某一种状态，它最优的行为就可以通过这个 Q 函数来得到。

 ### Model
 ![](img/1.28.png)
-第三个组成部分是模型，**模型决定了下一个状态会是什么样的，就是说下一步的状态取决于你当前的状态以及你当前采取的行为。**它由两个部分组成，一个是 probability，它这个转移状态之间是怎么转移的。另外是这个奖励函数，当你在当前状态采取了某一个行为，可以得到多大的奖励。
+第三个组成部分是模型，**模型决定了下一个状态会是什么样的，就是说下一步的状态取决于你当前的状态以及你当前采取的行为。**它由两个部分组成，
+
+* 一个是 probability，它这个转移状态之间是怎么转移的。
+
+* 另外是这个奖励函数，当你在当前状态采取了某一个行为，可以得到多大的奖励。

 ![](img/1.29.png)

@@ -228,7 +230,7 @@ Policy 决定了这个 agent 的行为，它其实是一个函数，把输入的
 ## Types of RL Agents

 ![](img/1.33.png)
-根据强化学习 agent 的不同，我们可以把 agent 进行归类。
+**根据强化学习 agent 的不同，我们可以把 agent 进行归类。**

 * 基于价值函数的 agent。这一类 agent 显式地学习的是价值函数，隐式地学习了它的策略。因为这个策略是从我们学到的价值函数里面推算出来的。
 * 基于策略的 agent，它直接去学习 policy，就是说你直接给它一个 state，它就会输出这个动作的概率。在这个 policy-based agent 里面并没有去学习它的价值函数。