From 207d468686c6720db91d755da5865e88badeafe7 Mon Sep 17 00:00:00 2001 From: qiwang067 Date: Thu, 17 Dec 2020 20:32:32 +0800 Subject: [PATCH] fix ch3 typos --- docs/chapter3/chapter3.md | 4 ++-- 1 file changed, 2 insertions(+), 2 deletions(-) diff --git a/docs/chapter3/chapter3.md b/docs/chapter3/chapter3.md index 9286872..59021c1 100644 --- a/docs/chapter3/chapter3.md +++ b/docs/chapter3/chapter3.md @@ -70,7 +70,7 @@ MDP 就是序列决策这样一个经典的表达方式。MDP 也是强化学习 ![](img/3.5.png)Q: 为什么可以用未来的总收益来评价当前这个动作是好是坏? -A: 举个例子,假设一辆车在路上,当前是红灯,我们直接走的收益就很低,因为违反交通规则,这就是当前的单步收益。可是如果我们这是一辆救护车,我们正在运送病人,把病人快速送达医院的收益非常的高,而且越快你的收益越大。在这种情况下,我们很可能应该要闯红灯,因为未来的远期收益太高了。这也是为什么强化学习需要去学习远期的收益,因为在现实世界中奖励往往是延迟的,是有 delay 的。所以我们一般会从当前状态开始,把后续有可能会收到所有收益加起来计算当前动作的 Q 的价值,让 Q 的价值可以真正地代表当前这个状态下,动作的真正的价值。 +A: 举个例子,假设一辆车在路上,当前是红灯,我们直接走的收益就很低,因为违反交通规则,这就是当前的单步收益。可是如果我们这是一辆救护车,我们正在运送病人,把病人快速送达医院的收益非常的高,而且越快你的收益越大。在这种情况下,我们很可能应该要闯红灯,因为未来的远期收益太高了。这也是为什么强化学习需要去学习远期的收益,因为在现实世界中奖励往往是延迟的。所以我们一般会从当前状态开始,把后续有可能会收到所有收益加起来计算当前动作的 Q 的价值,让 Q 的价值可以真正地代表当前这个状态下,动作的真正的价值。 ![](img/3.6.png) @@ -267,7 +267,7 @@ $$ ![](img/TD_4.png) -* TD 可以 online learning,每走一步就可以更新,效率高。 +* TD 可以在线学习(online learning),每走一步就可以更新,效率高。 * MC 必须等游戏结束才可以学习。