From 1333169d6f7b9ca9937d0e59240fefd89f707aa7 Mon Sep 17 00:00:00 2001 From: qiwang067 Date: Tue, 27 Oct 2020 15:58:09 +0800 Subject: [PATCH] fix ch2 typos --- docs/chapter2/chapter2.md | 10 +++++++--- 1 file changed, 7 insertions(+), 3 deletions(-) diff --git a/docs/chapter2/chapter2.md b/docs/chapter2/chapter2.md index 902ea52..e51489c 100644 --- a/docs/chapter2/chapter2.md +++ b/docs/chapter2/chapter2.md @@ -731,7 +731,7 @@ $$ ![](img/2.53.png) - +![](img/2.54.png) 我们来看一个 MDP control 的 Demo。首先来看 policy iteration。之前的例子,它们在每个状态都是采取固定的随机策略,就每个状态都是 0.25 的概率往上往下往左往右,没有策略的改变。但是我们现在想做 policy iteration,就是想每个状态都进行改变。Policy iteration 的过程是一个迭代过程。 @@ -762,11 +762,15 @@ $$ ![](img/2.61.png) -再来在这个状态下面进行改变,现在你看基本没有什么变化,就说明整个 MDP 已经收敛了。所以现在它每个状态的值就是它当前最佳的 value function 的值以及它当前状态对应的这个 policy 已经是最佳的 policy。我们可以简单来看,比如说现在我们在右上角这个 0.38 的这个位置,现在我们直接就可以根据它每个状态的这个值,比如现在右上角,然后它说现在应该往下走,我们往下走一步。它又说往下走,然后再往下走。现在我们有两个选择,一个是往左走,一个往下走。我们现在往下走,随着这个箭头的指示,我们就会到达中间 1.20 的一个价值的一个状态。如果能达到这个状态的话,我们会得到很多 reward 。这个说明了 policy iteration 可以把 gridworld 解决掉。解决掉的意思是说,不管在哪个状态,都可以顺着它这个状态对应的最佳的这个策略来到达可以获得最多奖励的一个状态。 +再来在这个状态下面进行改变,现在你看基本没有什么变化,就说明整个 MDP 已经收敛了。所以现在它每个状态的值就是它当前最佳的 value function 的值以及它当前状态对应的这个 policy 已经是最佳的 policy。 + +我们可以简单来看,比如说现在我们在右上角 0.38 的这个位置,然后它说现在应该往下走,我们往下走一步。它又说往下走,然后再往下走。现在我们有两个选择:往左走和往下走。我们现在往下走,随着这个箭头的指示,我们就会到达中间 1.20 的一个状态。如果能达到这个状态的话,我们会得到很多 reward 。 + +这个 Demo 说明了 policy iteration 可以把 gridworld 解决掉。解决掉的意思是说,不管在哪个状态,都可以顺着它这个状态对应的最佳的这个策略来到达可以获得最多奖励的一个状态。 ![](img/2.62.png) -我们再用 value iteration 来解 MDP,点第 3 个 value iteration。 当它的这个值确定下来过后,然后它会产生它的最佳状态,这个最佳状态跟 policy iteration 得出来的最佳策略是一致的,就可以得到一个最佳的一个策略。然后在每个状态,我们跟着这个最佳策略走,就会到达最多可以得到奖励的一个状态。 +我们再用 value iteration 来解 MDP,点第 3 个 value iteration。 当它的这个值确定下来过后,然后它会产生它的最佳状态,这个最佳状态跟 policy iteration 得出来的最佳策略是一致的,就可以得到一个最佳的策略。然后在每个状态,我们跟着这个最佳策略走,就会到达可以得到最多奖励的一个状态。 ![](img/2.63.png)