diff --git a/docs/chapter1/chapter1.md b/docs/chapter1/chapter1.md index bdcafa8..34e50c6 100644 --- a/docs/chapter1/chapter1.md +++ b/docs/chapter1/chapter1.md @@ -246,11 +246,11 @@ $$ $$ -![](img/1.29.png) +![](img/1.29.png ':size=300') 当我们有了这三个组成部分过后,就形成了一个 `马尔可夫决策过程(Markov Decision Process)`。这个决策过程可视化了状态之间的转移以及采取的行为。 -![](img/1.30.png) +![](img/1.30.png ':size=300') 我们来看一个走迷宫的例子。 @@ -259,14 +259,14 @@ $$ * 可以采取的动作是往上下左右走。 * 当前状态用现在 agent 所在的位置来描述。 -![](img/1.31.png) +![](img/1.31.png ':size=300') * 我们可以用不同的强化学习算法来解这个环境。 * 如果采取的是 `基于策略的(policy-based)RL`,当学习好了这个环境过后,在每一个状态,我们就会得到一个最佳的行为。 * 比如说现在在第一格开始的时候,我们知道它最佳行为是往右走,然后第二格的时候,得到的最佳策略是往上走,第三格是往右走。通过这个最佳的策略,我们就可以最快地到达终点。 -![](img/1.32.png) +![](img/1.32.png ':size=300') * 如果换成 `基于价值的(value-based)RL` 这个算法,利用价值函数来作为导向,我们就会得到另外一种表征,这里就表征了你每一个状态会返回一个价值。 diff --git a/docs/chapter1/img/1.30.png b/docs/chapter1/img/1.30.png index 022003e..abc8535 100644 Binary files a/docs/chapter1/img/1.30.png and b/docs/chapter1/img/1.30.png differ diff --git a/docs/chapter1/img/1.31.png b/docs/chapter1/img/1.31.png index 062253c..f9de383 100644 Binary files a/docs/chapter1/img/1.31.png and b/docs/chapter1/img/1.31.png differ diff --git a/docs/chapter1/img/1.32.png b/docs/chapter1/img/1.32.png index 4221b0e..07af3e6 100644 Binary files a/docs/chapter1/img/1.32.png and b/docs/chapter1/img/1.32.png differ