diff --git a/docs/chapter2/chapter2.md b/docs/chapter2/chapter2.md index 491c612..406cf05 100644 --- a/docs/chapter2/chapter2.md +++ b/docs/chapter2/chapter2.md @@ -326,27 +326,31 @@ $$ ![](img/2.25.png) -这里有一个概念叫 `Backup`。Backup 类似于 bootstrapping 之间这个迭代关系,就对于某一个状态,它的当前这个价值是跟它未来价值线性相关的。 +这里有一个概念叫 `Backup`。Backup 类似于 bootstrapping 之间这个迭代关系,就对于某一个状态,它的当前价值是跟它未来价值线性相关的。 $$ v^{\pi}(s)=\sum_{a \in A} \pi(a \mid s)\left(R(s, a)+\gamma \sum_{s^{\prime} \in S} P\left(s^{\prime} \mid s, a\right) v^{\pi}\left(s^{\prime}\right)\right) \tag{12} $$ -如式 (12) 所示,你可以看到我们这里有两层加和: +如式 (12) 所示,我们这里有两层加和: -* 第一层加和就是这个叶子节点,然后往上走一层的话,我们就可以把未来的这个价值 $s'$ backup 到黑色的节点。 -* 第二层加和是把 action 进行加和。 +* 第一层加和就是这个叶子节点,往上走一层的话,我们就可以把未来的价值($s'$ 的价值) backup 到黑色的节点。 +* 第二层加和是对 action 进行加和。得到黑色节点的价值过后,再往上 backup 一层,就会推到根节点的价值,即当前状态的价值。 -得到黑色节点的价值过后,再往上 backup 一层,然后就会推到根节点的价值,根节点就是我们当前状态。**所以 `Backup Diagram` 定义了你未来下一时刻的状态跟你上一时刻的状态之间的一个关联。** +**所以 `Backup Diagram` 定义了未来下一时刻的状态价值跟上一时刻的状态价值之间的关联。** + +> 我们把上面这样的图称为 backup diagram(备份图),因为它们图示的关系构成了更新或备份操作的基础,而这些操作是强化学习方法的核心。这些操作将价值信息从一个状态(或状态-动作对)的后继状态(或状态-动作对)转移回它。 +> +> 每一个空心圆圈代表一个状态,每一个实心圆圈代表一个状态-动作对。 ![](img/2.26.png) -同样对于 Q 函数,我们也可以进行这样的一个推导,就现在的根节点是这个 Q 函数的一个节点。这个 Q 函数是对于黑色的这个节点。我们下一时刻的这个 Q 函数是叶子节点,有四个黑色结点。那么我们这里也有两个加和。 +对于 Q 函数,我们也可以进行这样的一个推导。现在的根节点是这个 Q 函数的一个节点。Q 函数对应于黑色的节点。我们下一时刻的 Q 函数是叶子节点,有四个黑色节点。 $$ q^{\pi}(s, a)=R(s, a)+\gamma \sum_{s^{\prime} \in S} P\left(s^{\prime} \mid s, a\right) \sum_{a^{\prime} \in A} \pi\left(a^{\prime} \mid s^{\prime}\right) q^{\pi}\left(s^{\prime}, a^{\prime}\right) \tag{13} $$ -如式 (13) 所示, +如式 (13) 所示,我们这里也有两个加和: -* 第一层加和是先把这个叶子节点从黑节点推到这个白色的这个节点,进了它的这个状态。 -* 当我们到达某一个状态过后,这个白色极点,然后再进行一个加和,这样就把它重新推回到当前节点的一个 Q 函数。 +* 第一层加和是先把这个叶子节点从黑色节点推到这个白色的节点,进了它的这个状态。 +* 当我们到达某一个状态过后,再对这个白色节点进行一个加和,这样就把它重新推回到当前时刻的一个 Q 函数。 **所以这个等式就决定了未来 Q 函数跟当前 Q 函数之间的这个关联。**