From 54b4328c1d2ab8ba4d4f3fbbb38b0770afeb0fb6 Mon Sep 17 00:00:00 2001 From: qiwang067 Date: Tue, 27 Oct 2020 15:50:49 +0800 Subject: [PATCH] fix ch2 typos --- docs/chapter2/chapter2.md | 9 +++++---- 1 file changed, 5 insertions(+), 4 deletions(-) diff --git a/docs/chapter2/chapter2.md b/docs/chapter2/chapter2.md index 0f0c230..902ea52 100644 --- a/docs/chapter2/chapter2.md +++ b/docs/chapter2/chapter2.md @@ -554,7 +554,8 @@ $$ 在这样的环境里面,我们想计算它每一个状态的价值。我们也定义了它的 reward function,你可以看到有些状态上面有一个 R 的值。比如我们这边有些值是为负的,我们可以看到格子里面有几个 -1 的 reward,只有一个 +1 reward 的格子。在这个棋盘的中间这个位置,可以看到有一个 R 的值是 1.0,为正的一个价值函数。 所以每个状态对应了一个值,然后有一些状态没有任何值,就说明它的这个 reward function,它的奖励是为零的。 -![](img/2.38.png)我们开始做这个 policy evaluation,policy evaluation 是一个不停迭代的过程。当我们初始化的时候,所有的 $v(s)$ 都是 0。我们现在迭代一次,迭代一次过后,你发现有些状态上面,值已经产生了变化。比如说那些有奖励的值,比如有些状态的值的 R 为 -1,迭代一次过后,它就会得到 -1 的这个奖励。对于中间这个绿色的,因为它的奖励为正,所以它是 + 1 的状态。 +![](img/2.38.png) +我们开始做这个 policy evaluation,policy evaluation 是一个不停迭代的过程。当我们初始化的时候,所有的 $v(s)$ 都是 0。我们现在迭代一次,迭代一次过后,你发现有些状态上面,值已经产生了变化。比如有些状态的值的 R 为 -1,迭代一次过后,它就会得到 -1 的这个奖励。对于中间这个绿色的,因为它的奖励为正,所以它是 +1 的状态。 ![](img/2.39.png) @@ -603,7 +604,7 @@ A: 当取得最佳的价值函数过后,我们可以通过对这个 Q 函数 $$ \pi^{*}(s)=\underset{\pi}{\arg \max } ~ v^{\pi}(s) $$ -对于一个事先定好的 MDP 过程,当这个 agent 去采取最佳策略的时候, +对于一个事先定好的 MDP 过程,当 agent 去采取最佳策略的时候, * 我们可以说最佳策略一般都是确定的。 * 而且是 stationary,它不会随着时间的变化。 @@ -730,9 +731,9 @@ $$ ![](img/2.53.png) -![](img/2.54.png) + -我们来看一个 MDP control 的 Demo。首先来看这个 policy iteration。之前的例子,它们在每个状态都是采取固定的随机策略,就每个状态都是 0.25 的概率往上往下往左往右,这里没有策略的改变。但是我们现在想做 policy iteration,就是想每个状态都进行改变。Policy iteration 的过程是一个迭代过程。 +我们来看一个 MDP control 的 Demo。首先来看 policy iteration。之前的例子,它们在每个状态都是采取固定的随机策略,就每个状态都是 0.25 的概率往上往下往左往右,没有策略的改变。但是我们现在想做 policy iteration,就是想每个状态都进行改变。Policy iteration 的过程是一个迭代过程。 ![](img/2.55.png)