From 7bbceebddb66f154df752710184dedb96dbce8ab Mon Sep 17 00:00:00 2001 From: qiwang067 Date: Sun, 1 Nov 2020 20:08:03 +0800 Subject: [PATCH] fix ch2 typos --- docs/chapter2/chapter2.md | 3 ++- 1 file changed, 2 insertions(+), 1 deletion(-) diff --git a/docs/chapter2/chapter2.md b/docs/chapter2/chapter2.md index 1f3cea0..1528e13 100644 --- a/docs/chapter2/chapter2.md +++ b/docs/chapter2/chapter2.md @@ -77,7 +77,7 @@ $$ 这里是我们刚才看的马尔可夫链,如果把奖励也放上去的话,就是说到达每一个状态,我们都会获得一个奖励。这里我们可以设置对应的奖励,比如说到达 $s_1$ 状态的时候,可以获得 5 的奖励,到达 $s_7$ 的时候,有 10 的奖励,其它状态没有任何奖励。因为这里状态是有限的,所以我们可以用一个向量来表示这个奖励函数,这个向量表示了每个点的奖励的大小。 -我们可以通过一个形象的例子来理解 MRP,你可以把它看成一个纸船。我们把一个纸船放到河流之中,那么它就会随着这个河流而流动,它自身是没有动力的,所以你可以把 MRP 看成是一个随波逐流的例子,当我们从某一个点开始的时候,这个纸船就会随着事先定义好的状态转移进行流动,它到达每个状态过后,我们就有可能获得一些奖励。 +我们通过一个形象的例子来理解 MRP。我们把一个纸船放到河流之中,那么它就会随着这个河流而流动,它自身是没有动力的。所以你可以把 MRP 看成是一个随波逐流的例子,当我们从某一个点开始的时候,这个纸船就会随着事先定义好的状态转移进行流动,它到达每个状态过后,我们就有可能获得一些奖励。 ### Return and Value function @@ -769,6 +769,7 @@ $$ * 解法:我们可以直接把 `Bellman Optimality backup` 这个等式拿进来进行迭代,迭代很多次,收敛过后得到的那个值就是它的最佳的值。 * 这个算法开始的时候,它是先把所有值初始化,通过每一个状态,然后它会进行这个迭代。把等式 (22) 插到等式 (23) 里面,就是 Bellman optimality backup 的那个等式。有了等式 (22) 和等式 (23) 过后,然后进行不停地迭代,迭代过后,然后收敛,收敛后就会得到这个 $v^*$ 。当我们有了 $v^*$ 过后,一个问题是如何进一步推算出它的最佳策略。 * 提取最佳策略的话,我们可以直接用 arg max。就先把它的 Q 函数重构出来,重构出来过后,每一个列对应的最大的那个 action 就是它现在的最佳策略。这样就可以从最佳价值函数里面提取出最佳策略。 +* 我们只是在解决一个 planning 的问题,而不是强化学习的问题,因为我们知道环境如何变化。 ![](img/2.52.png)