From b07b3406f2974f42e70e4eebc098c8425459b9dd Mon Sep 17 00:00:00 2001
From: qiwang067 <qiwang067@163.com>
Date: Thu, 5 Nov 2020 17:01:38 +0800
Subject: [PATCH] fix ch2 typos

---
 docs/chapter2/chapter2.md | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/docs/chapter2/chapter2.md b/docs/chapter2/chapter2.md
index 57b0c10..edd8b8e 100644
--- a/docs/chapter2/chapter2.md
+++ b/docs/chapter2/chapter2.md
@@ -623,7 +623,7 @@ A: 当取得最佳的价值函数过后，我们可以通过对这个 Q 函数
 
 最简单的策略搜索办法就是`穷举`。假设状态和动作都是有限的，那么每个状态我们可以采取这个 A 种动作的策略，那么总共就是 $|A|^{|S|}$ 个可能的 policy。那我们可以把策略都穷举一遍，然后算出每种策略的 value function，对比一下就可以得到最佳策略。
 
-但是这样的穷举非常没有效率，所以我们要采取其他方法。**搜索最佳策略有两种比较常用的方法：`policy iteration` 和  `value iteration` **。
+但是穷举非常没有效率，所以我们要采取其他方法。**搜索最佳策略有两种常用的方法：`policy iteration` 和  `value iteration` **。
 
 ![](img/2.44.png)