fix ch2 typos

This commit is contained in:
qiwang067
2020-11-05 17:04:47 +08:00
parent b07b3406f2
commit 2a0d0b4e51

View File

@@ -623,7 +623,7 @@ A: 当取得最佳的价值函数过后,我们可以通过对这个 Q 函数
最简单的策略搜索办法就是`穷举`。假设状态和动作都是有限的,那么每个状态我们可以采取这个 A 种动作的策略,那么总共就是 $|A|^{|S|}$ 个可能的 policy。那我们可以把策略都穷举一遍然后算出每种策略的 value function对比一下就可以得到最佳策略。
但是穷举非常没有效率,所以我们要采取其他方法。**搜索最佳策略有两种常用的方法:`policy iteration``value iteration` **
但是穷举非常没有效率,所以我们要采取其他方法。**搜索最佳策略有两种常用的方法policy iteration 和 value iteration**
![](img/2.44.png)