From b7d671ab7883f5b9e4a4dd6e800c3584d1d2b59e Mon Sep 17 00:00:00 2001 From: qiwang067 Date: Fri, 19 Feb 2021 16:22:54 +0800 Subject: [PATCH] fix ch2 typos --- docs/chapter2/chapter2.md | 4 ++-- 1 file changed, 2 insertions(+), 2 deletions(-) diff --git a/docs/chapter2/chapter2.md b/docs/chapter2/chapter2.md index 0aefbff..fdf42d3 100644 --- a/docs/chapter2/chapter2.md +++ b/docs/chapter2/chapter2.md @@ -394,7 +394,7 @@ $$ * 第一层加和就是这个叶子节点,往上走一层的话,我们就可以把未来的价值($s'$ 的价值) backup 到黑色的节点。 * 第二层加和是对 action 进行加和。得到黑色节点的价值过后,再往上 backup 一层,就会推到根节点的价值,即当前状态的价值。 -![](img/state_value_function_backup.png ':size=450') +![](img/state_value_function_backup.png ':size=550') 上图是状态-价值函数的计算分解图,上图 B 计算公式为 $$ @@ -422,7 +422,7 @@ $$ * 第一层加和是先把这个叶子节点从黑色节点推到这个白色的节点,进了它的这个状态。 * 当我们到达某一个状态过后,再对这个白色节点进行一个加和,这样就把它重新推回到当前时刻的一个 Q 函数。 -![](img/q_function_backup.png ':size=450') +![](img/q_function_backup.png ':size=550') 在上图 C 中, $$