fix ch1 typos

This commit is contained in:
qiwang067
2020-10-19 10:36:10 +08:00
parent bc286958e4
commit cffbb560d3

View File

@@ -201,15 +201,17 @@ Policy 决定了这个 agent 的行为,它其实是一个函数,把输入的
![](img/1.27.png)
**价值函数是一个折扣的未来奖励的加和**,就是你通过进行某一种行为,然后你未来得到多大的奖励。
价值函数里面有一个 discount factor我们希望尽可能在短的时间里面得到尽可能多的奖励。如果我们说十天过后,我给你 100 块钱,跟我现在给你 100 块钱,你肯定更希望我现在就给你 100 块钱,因为你可以把这 100 块钱存在银行里面,你就会有一些利息。所以我们就通过把这个 `discount factor` 放到价值函数的定义里面,后面得到的奖励价值函数的定义其实是一个期望。
价值函数里面有一个 discount factor我们希望尽可能在短的时间里面得到尽可能多的奖励。如果我们说十天过后,我给你 100 块钱,跟我现在给你 100 块钱,你肯定更希望我现在就给你 100 块钱,因为你可以把这 100 块钱存在银行里面,你就会有一些利息。所以我们就通过把这个 `discount factor` 放到价值函数的定义里面,价值函数的定义其实是一个期望。这里有一个期望 $\mathbb{E}_{\pi}$,这里有个小角标是 $\pi$ 函数,这个 $\pi$ 函数就是说在我们已知某一个 policy function 的时候,到底可以得到多少的奖励。
这里有一个 $\mathbb{E}_{\pi}$ 的期望,这里有个小角标是 $\pi$ 函数,这个 $\pi$ 函数就是说在我们已知某一个 policy function 的时候,到底可以得到多少的奖励
对于这个奖励函数,我们另外还有一个 Q 函数。Q 函数里面包含两个变量:状态和动作。所以你未来可以获得多少的奖励,它的这个期望取决于你当前的状态和当前的行为。这个 Q 函数是强化学习算法在学习的一个函数。因为当我们得到这个 Q 函数的过后,进入某一种状态,它最优的行为其实就可以通过这个 Q 函数来得到。
我们还有一种价值函数Q 函数。Q 函数里面包含两个变量:状态和动作。所以你未来可以获得多少的奖励,它的这个期望取决于你当前的状态和当前的行为。这个 Q 函数是强化学习算法里面要学习的一个函数。因为当我们得到这个 Q 函数后,进入某一种状态,它最优的行为就可以通过这个 Q 函数来得到
### Model
![](img/1.28.png)
第三个组成部分是模型,**模型决定了下一个状态会是什么样的,就是说下一步的状态取决于你当前的状态以及你当前采取的行为。**它由两个部分组成,一个是 probability它这个转移状态之间是怎么转移的。另外是这个奖励函数当你在当前状态采取了某一个行为可以得到多大的奖励。
第三个组成部分是模型,**模型决定了下一个状态会是什么样的,就是说下一步的状态取决于你当前的状态以及你当前采取的行为。**它由两个部分组成,
* 一个是 probability它这个转移状态之间是怎么转移的。
* 另外是这个奖励函数,当你在当前状态采取了某一个行为,可以得到多大的奖励。
![](img/1.29.png)
@@ -228,7 +230,7 @@ Policy 决定了这个 agent 的行为,它其实是一个函数,把输入的
## Types of RL Agents
![](img/1.33.png)
根据强化学习 agent 的不同,我们可以把 agent 进行归类。
**根据强化学习 agent 的不同,我们可以把 agent 进行归类。**
* 基于价值函数的 agent。这一类 agent 显式地学习的是价值函数,隐式地学习了它的策略。因为这个策略是从我们学到的价值函数里面推算出来的。
* 基于策略的 agent它直接去学习 policy就是说你直接给它一个 state它就会输出这个动作的概率。在这个 policy-based agent 里面并没有去学习它的价值函数。