fix ch2 typos

This commit is contained in:
qiwang067
2020-12-10 22:34:38 +08:00
parent 3112bc7ce7
commit 07e6612500

View File

@@ -4,7 +4,7 @@
本章给大家介绍马尔可夫决策过程。
* 在介绍马尔可夫决策过程之前,先介绍它的简化版本:马尔可夫链以及马尔可夫奖励过程,通过跟这两种过程的比较,我们可以更容易理解马尔可夫决策过程。
* 在介绍马尔可夫决策过程之前,先介绍它的简化版本:马尔可夫链以及马尔可夫奖励过程,通过跟这两种过程的比较,我们可以更容易理解马尔可夫决策过程。
* 第二部分会介绍马尔可夫决策过程中的 `policy evaluation`,就是当给定一个决策过后,怎么去计算它的价值函数。
* 第三部分会介绍马尔可夫决策过程的控制,具体有两种算法:`policy iteration``value iteration`