fix ch1

2021-05-25 20:35:14 +08:00
parent ccdd4b931d
commit ac9575d131
4 changed files with 4 additions and 4 deletions
--- a/docs/chapter1/chapter1.md
+++ b/docs/chapter1/chapter1.md
@@ -246,11 +246,11 @@ $$
 $$


-![](img/1.29.png)
+![](img/1.29.png ':size=300')

 当我们有了这三个组成部分过后，就形成了一个 `马尔可夫决策过程(Markov Decision Process)`。这个决策过程可视化了状态之间的转移以及采取的行为。

-![](img/1.30.png)
+![](img/1.30.png ':size=300')

 我们来看一个走迷宫的例子。

@@ -259,14 +259,14 @@ $$
 * 可以采取的动作是往上下左右走。
 * 当前状态用现在 agent 所在的位置来描述。

-![](img/1.31.png)
+![](img/1.31.png ':size=300')

 * 我们可以用不同的强化学习算法来解这个环境。
 * 如果采取的是 `基于策略的(policy-based)RL`，当学习好了这个环境过后，在每一个状态，我们就会得到一个最佳的行为。

 * 比如说现在在第一格开始的时候，我们知道它最佳行为是往右走，然后第二格的时候，得到的最佳策略是往上走，第三格是往右走。通过这个最佳的策略，我们就可以最快地到达终点。

-![](img/1.32.png)
+![](img/1.32.png ':size=300')

 * 如果换成 `基于价值的(value-based)RL` 这个算法，利用价值函数来作为导向，我们就会得到另外一种表征，这里就表征了你每一个状态会返回一个价值。

--- a/docs/chapter1/img/1.30.png
+++ b/docs/chapter1/img/1.30.png
--- a/docs/chapter1/img/1.31.png
+++ b/docs/chapter1/img/1.31.png
--- a/docs/chapter1/img/1.32.png
+++ b/docs/chapter1/img/1.32.png