From 092aed74ac97b7627f75efcc8a53c5d15d13f973 Mon Sep 17 00:00:00 2001
From: qiwang067 <qiwang067@163.com>
Date: Thu, 22 Oct 2020 21:40:12 +0800
Subject: [PATCH] fix some typos

---
 docs/chapter2/chapter2.md | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/docs/chapter2/chapter2.md b/docs/chapter2/chapter2.md
index ea3aeb5..05b58ef 100644
--- a/docs/chapter2/chapter2.md
+++ b/docs/chapter2/chapter2.md
@@ -177,7 +177,7 @@ $$
 **这里我们看一看，MDP 里面的状态转移跟 MRP 以及 MP 的一个差异。**
 
 * 马尔可夫过程的转移是直接就决定。比如当前状态是 s，那么就直接通过这个转移概率决定了下一个状态是什么。
-* 但对于 MDP，它的中间多了一层这个行为 a ，就是说在你当前这个状态的时候，首先要决定的是采取某一种行为，那么你会到了某一个黑色的节点。到了这个黑色的节点，因为你有一定的不确定性，当你当前状态决定过后以及你当前采取的行为过后，你到未来的状态其实也是一个概率分布。所以你采取行为后，你可能有多大的概率到达某一个未来状态，以及另外有多大概率到达另外一个状态。**所以在这个当前状态跟未来状态转移过程中这里多了一层决策性，这是 MDP 跟之前的马尔可夫过程很不同的一个地方。**在马尔可夫决策过程中，行为是由 agent 决定，所以多了一个 component，agent 会采取行为来决定未来的状态转移。
+* 但对于 MDP，它的中间多了一层这个行为 a ，就是说在你当前这个状态的时候，首先要决定的是采取某一种行为，那么你会到了某一个黑色的节点。到了这个黑色的节点，因为你有一定的不确定性，当你当前状态决定过后以及你当前采取的行为过后，你到未来的状态其实也是一个概率分布。**所以在这个当前状态跟未来状态转移过程中这里多了一层决策性，这是 MDP 跟之前的马尔可夫过程很不同的一个地方。**在马尔可夫决策过程中，行为是由 agent 决定，所以多了一个 component，agent 会采取行为来决定未来的状态转移。
 
 ![](img/2.22.png)