fix some typos
This commit is contained in:
@@ -247,20 +247,33 @@ Policy 决定了这个 agent 的行为,它其实是一个函数,把输入的
|
||||
|
||||

|
||||
|
||||
这里我们来看一个走迷宫的例子,这个例子要求 agent 从 start 开始,然后到达 goal 的位置。这里设定的奖励是每走一步,你就会得到一个负的奖励。这里可以采取的动作是往上下左右走。当前状态用现在 agent 所在的位置来描述。
|
||||
我们来看一个走迷宫的例子。
|
||||
|
||||
* 这个例子要求 agent 从 start 开始,然后到达 goal 的位置。
|
||||
* 这里设定的奖励是每走一步,你就会得到一个负的奖励。
|
||||
* 这里可以采取的动作是往上下左右走。
|
||||
* 当前状态用现在 agent 所在的位置来描述。
|
||||
|
||||

|
||||
我们可以用不同的强化学习算法来解这个环境,如果我们采取的是 `Policy-based RL`,当我们学习好了这个环境过后,在每一个状态,我们就会得到一个最佳的行为。比如说现在在第一格开始的时候,我们知道它最佳行为是往右走,然后第二格的时候,得到的最佳策略是往上走,第三格是往右走。通过这个最佳的策略,我们就可以最快地到达终点。
|
||||
|
||||
* 我们可以用不同的强化学习算法来解这个环境。
|
||||
* 如果我们采取的是 `Policy-based RL`,当我们学习好了这个环境过后,在每一个状态,我们就会得到一个最佳的行为。
|
||||
|
||||
* 比如说现在在第一格开始的时候,我们知道它最佳行为是往右走,然后第二格的时候,得到的最佳策略是往上走,第三格是往右走。通过这个最佳的策略,我们就可以最快地到达终点。
|
||||
|
||||

|
||||
如果换成 `value-based RL` 这个算法,利用价值函数来作为导向,我们就会得到另外一种表征。这里就表征了你每一个状态会返回一个价值,比如说你在 start 位置的时候,价值是 -16,因为你最快可以 16 步到达终点。因为每走一步会减一,所以你这里的价值是 -16。当我们快接近最后终点的时候,这个数字变得越来越大。在拐角的时候,比如要现在在第二格 -15。然后 agent 会看上下,它看到上面值变大了,变成 -14 了,它下面是 -16,那么这个 agent 肯定就会采取一个往上走的策略。所以通过这个学习的值的不同,我们可以抽取出现在最佳的策略。
|
||||
|
||||
* 如果换成 `value-based RL` 这个算法,利用价值函数来作为导向,我们就会得到另外一种表征,这里就表征了你每一个状态会返回一个价值。
|
||||
|
||||
* 比如说你在 start 位置的时候,价值是 -16,因为你最快可以 16 步到达终点。因为每走一步会减一,所以你这里的价值是 -16。
|
||||
* 当我们快接近最后终点的时候,这个数字变得越来越大。在拐角的时候,比如要现在在第二格 -15。然后 agent 会看上下,它看到上面值变大了,变成 -14 了,它下面是 -16,那么 agent 肯定就会采取一个往上走的策略。所以通过这个学习的值的不同,我们可以抽取出现在最佳的策略。
|
||||
|
||||
## Types of RL Agents
|
||||
|
||||

|
||||
**根据强化学习 agent 的不同,我们可以把 agent 进行归类。**
|
||||
|
||||
* `基于价值的 agent(value-based agent)`。这一类 agent 显式地学习的是价值函数,隐式地学习了它的策略。这个策略是从我们学到的价值函数里面推算出来的。
|
||||
* `基于价值的 agent(value-based agent)`。这一类 agent 显式地学习的是价值函数,隐式地学习了它的策略。策略是从我们学到的价值函数里面推算出来的。
|
||||
* `基于策略的 agent(policy-based agent)`。这一类 agent 直接去学习 policy,就是说你直接给它一个 state,它就会输出这个动作的概率。在这个 policy-based agent 里面并没有去学习它的价值函数。
|
||||
* 把 value-based 和 policy-based 结合起来就有了 `Actor-Critic agent`。这一类 agent 把它的策略函数和价值函数都学习了,然后通过两者的交互得到一个最佳的行为。
|
||||
|
||||
@@ -313,7 +326,7 @@ A: 针对是否需要对真实环境建模,强化学习可以分为有模型
|
||||
|
||||

|
||||
|
||||
把几类模型放到同一个饼图里面。三个组成部分:value function、policy、model。按一个 agent 具不具有三者中的两者或者一者可以把它分成很多类。
|
||||
把几类模型放到同一个饼图里面。饼图有三个组成部分:value function、policy、model。按一个 agent 具不具有三者中的两者或者一者可以把它分成很多类。
|
||||
|
||||
## Learning and Planning
|
||||
|
||||
|
||||
Reference in New Issue
Block a user