fix ch2 typos
This commit is contained in:
@@ -4,7 +4,7 @@
|
||||
|
||||
本章给大家介绍马尔可夫决策过程。
|
||||
|
||||
* 在介绍马尔可夫决策过程之前,先介绍它的简化版本:马尔可夫链以及马尔可夫奖励过程,通过跟这两种过程的比较,我们可以更容易地理解马尔可夫决策过程。
|
||||
* 在介绍马尔可夫决策过程之前,先介绍它的简化版本:马尔可夫链以及马尔可夫奖励过程,通过跟这两种过程的比较,我们可以更容易理解马尔可夫决策过程。
|
||||
* 第二部分会介绍马尔可夫决策过程中的 `policy evaluation`,就是当给定一个决策过后,怎么去计算它的价值函数。
|
||||
* 第三部分会介绍马尔可夫决策过程的控制,具体有两种算法:`policy iteration` 和 `value iteration`。
|
||||
|
||||
|
||||
Reference in New Issue
Block a user