From 49095334d6cb3f8bc3ee37416d251dfcb3f4eae4 Mon Sep 17 00:00:00 2001 From: qiwang067 Date: Mon, 2 May 2022 20:56:36 +0800 Subject: [PATCH] update errata --- docs/errata.md | 8 ++++++-- 1 file changed, 6 insertions(+), 2 deletions(-) diff --git a/docs/errata.md b/docs/errata.md index f2ea440..9cc8c97 100644 --- a/docs/errata.md +++ b/docs/errata.md @@ -1,6 +1,6 @@ -# 纸质版勘误表 +# 纸质版勘误修订表 -如何使用勘误?首先找到你的书的印次,接下来对着下表索引印次,该印次之后所有的勘误都是你的书中所要注意的勘误,印次前的所有勘误在当印次和之后印次均已印刷修正。 +**如何使用勘误?首先找到你的书的印次,接下来对着下表索引印次,该印次之后所有的勘误都是你的书中所要注意的勘误,印次前的所有勘误在当印次和之后印次均已印刷修正。为方便读者,所有修订内容都列举在此。其中部分修订是为了更便于读者理解,并非原文有误。** ## 第1版第1次印刷(2022.03) @@ -19,6 +19,10 @@ $$ \pi(s)=\underset{a}{\arg \max } \left[R(s, a)+\gamma \sum_{s^{\prime} \in S} p\left(s^{\prime} \mid s, a\right) V_{H+1}\left(s^{\prime}\right)\right] $$ +* 70页,第一段修改为: + +    策略最简单的表示是查找表(look-up table),即表格型策略(tabular policy)。使用查找表的强化学习方法称为**表格型方法(tabular method)**,如蒙特卡洛、Q学习和Sarsa。本章通过最简单的表格型方法来讲解如何使用基于价值的方法求解强化学习问题。 + * 76页,式(3.1) 中 $G$ 和 $r$ 后面的数字改为下标,即 $$