This commit is contained in:
qiwang067
2021-05-25 20:35:14 +08:00
parent ccdd4b931d
commit ac9575d131
4 changed files with 4 additions and 4 deletions

View File

@@ -246,11 +246,11 @@ $$
$$
![](img/1.29.png)
![](img/1.29.png ':size=300')
当我们有了这三个组成部分过后,就形成了一个 `马尔可夫决策过程(Markov Decision Process)`。这个决策过程可视化了状态之间的转移以及采取的行为。
![](img/1.30.png)
![](img/1.30.png ':size=300')
我们来看一个走迷宫的例子。
@@ -259,14 +259,14 @@ $$
* 可以采取的动作是往上下左右走。
* 当前状态用现在 agent 所在的位置来描述。
![](img/1.31.png)
![](img/1.31.png ':size=300')
* 我们可以用不同的强化学习算法来解这个环境。
* 如果采取的是 `基于策略的(policy-based)RL`,当学习好了这个环境过后,在每一个状态,我们就会得到一个最佳的行为。
* 比如说现在在第一格开始的时候,我们知道它最佳行为是往右走,然后第二格的时候,得到的最佳策略是往上走,第三格是往右走。通过这个最佳的策略,我们就可以最快地到达终点。
![](img/1.32.png)
![](img/1.32.png ':size=300')
* 如果换成 `基于价值的(value-based)RL` 这个算法,利用价值函数来作为导向,我们就会得到另外一种表征,这里就表征了你每一个状态会返回一个价值。

Binary file not shown.

Before

Width:  |  Height:  |  Size: 199 KiB

After

Width:  |  Height:  |  Size: 87 KiB

Binary file not shown.

Before

Width:  |  Height:  |  Size: 240 KiB

After

Width:  |  Height:  |  Size: 142 KiB

Binary file not shown.

Before

Width:  |  Height:  |  Size: 191 KiB

After

Width:  |  Height:  |  Size: 99 KiB