fix ch1 typos

This commit is contained in:
qiwang067
2020-12-13 11:29:22 +08:00
parent 612cf68ca3
commit c457de07dc

View File

@@ -260,13 +260,13 @@ Policy 决定了这个 agent 的行为,它其实是一个函数,把输入的
![](img/1.31.png)
* 我们可以用不同的强化学习算法来解这个环境。
* 如果我们采取的是 `Policy-based RL`,当我们学习好了这个环境过后,在每一个状态,我们就会得到一个最佳的行为。
* 如果采取的是 `基于策略的(policy-based)RL`,当学习好了这个环境过后,在每一个状态,我们就会得到一个最佳的行为。
* 比如说现在在第一格开始的时候,我们知道它最佳行为是往右走,然后第二格的时候,得到的最佳策略是往上走,第三格是往右走。通过这个最佳的策略,我们就可以最快地到达终点。
![](img/1.32.png)
* 如果换成 `value-based RL` 这个算法,利用价值函数来作为导向,我们就会得到另外一种表征,这里就表征了你每一个状态会返回一个价值。
* 如果换成 `基于价值的(value-based)RL` 这个算法,利用价值函数来作为导向,我们就会得到另外一种表征,这里就表征了你每一个状态会返回一个价值。
* 比如说你在 start 位置的时候,价值是 -16因为你最快可以 16 步到达终点。因为每走一步会减一,所以你这里的价值是 -16。
* 当我们快接近最后终点的时候,这个数字变得越来越大。在拐角的时候,比如要现在在第二格 -15。然后 agent 会看上下,它看到上面值变大了,变成 -14 了,它下面是 -16那么 agent 肯定就会采取一个往上走的策略。所以通过这个学习的值的不同,我们可以抽取出现在最佳的策略。
@@ -327,7 +327,7 @@ A: 针对是否需要对真实环境建模,强化学习可以分为有模型
* 免模型学习更为简单直观且有丰富的开源资料,像 DQN、AlphaGo 系列等都采用免模型学习;
* 在目前的强化学习研究中,大部分情况下环境都是静态的、可描述的,智能体的状态是离散的、可观察的(如 Atari 游戏平台),这种相对简单确定的问题并不需要评估状态转移函数和奖励函数,直接采用免模型学习,使用大量的样本进行训练就能获得较好的效果。
![](img/1.36.png)
![](img/1.36.png ':size=400')
把几类模型放到同一个饼图里面。饼图有三个组成部分:价值函数、策略和模型。按一个 agent 具不具有三者中的两者或者一者可以把它分成很多类。
@@ -354,7 +354,7 @@ Learning 和 Planning 是序列决策的两个基本问题。
## Exploration and Exploitation
![](img/1.37.png)
在强化学习里面,`Exploration`` Exploitation` 是两个很核心的问题。
在强化学习里面,`探索``利用` 是两个很核心的问题。
* 探索是说我们怎么去探索这个环境,通过尝试不同的行为来得到一个最佳的策略,得到最大奖励的策略。
@@ -401,9 +401,7 @@ Learning 和 Planning 是序列决策的两个基本问题。
![](img/1.40.png)
强化学习是一个理论跟实践结合的机器学习分支,需要去推导很多算法公式。然后去理解它算法背后的一些数学原理。另外一方面,上机实践通过实现算法,在很多实验环境里面去探索这个算法是不是可以得到预期效果也是一个非常重要的过程。
![](img/1.41.png)
在[这个链接](https://github.com/cuhkrlcourse/RLexample)里面,我其实公布了一些 RL 相关的代码,利用了 Python 和深度学习的一些包(主要是用 PyTorch 为主)。
在[这个链接](https://github.com/cuhkrlcourse/RLexample)里面,公布了一些 RL 相关的代码,利用了 Python 和深度学习的一些包(主要是用 PyTorch 为主)。
![](img/1.42.png)