From 5655f095880d5e2bcb72e52135c525bcb62cffd5 Mon Sep 17 00:00:00 2001 From: qiwang067 Date: Wed, 21 Oct 2020 16:30:01 +0800 Subject: [PATCH] fix ch2 typos --- docs/chapter2/chapter2.md | 10 ++++++---- 1 file changed, 6 insertions(+), 4 deletions(-) diff --git a/docs/chapter2/chapter2.md b/docs/chapter2/chapter2.md index f8fe2b6..ea3aeb5 100644 --- a/docs/chapter2/chapter2.md +++ b/docs/chapter2/chapter2.md @@ -66,13 +66,15 @@ * 这里我们再定义一个 `return`。Return 说的是我们把奖励进行折扣,然后获得的这个收益。Return 可以定义为奖励的逐步叠加,然后这里有一个叠加系数,就是越往后得到的奖励,折扣得越多。这说明我们其实更希望得到现有的奖励,未来的奖励就要把它打折扣。 * 当我们有了这个 return 过后,就可以正式定义一个状态的价值了,就是 `state value function`。然后对于这个MRP,它里面定义成是关于这个 return 的期望, $G_t$ 是我们之前定义的 `discounted return`。然后我们这里取了一个期望,期望就是说从这个状态开始,你有可能获得多大的价值。所以这个期望也可以看成是一个对未来可能获得奖励的它的当前价值的一个表现。就是当你进入某一个状态过后,你现在就有多大的价值。 -![](img/2.10.png)**这里我们解释一下为什么需要 discounted factor。** +![](img/2.10.png)**这里我们解释一下为什么需要 discount factor。** * 有些马尔可夫过程是带环的,它并没有终结,我们想避免这个无穷的奖励。 -* 我们想把这个不确定性表示出来,希望尽可能快地得到奖励,而不是在未来某一个点得到奖励。 -* 如果这个奖励是有实际价值的,我们可能是更希望立刻就得到奖励,而不是后面再得到奖励。 +* 我们并没有建立一个完美的模拟环境的模型,也就是说,我们对未来的评估不一定是准确的,我们不一定完全信任我们的模型,因为这种不确定性,所以我们对未来的预估增加一个折扣。我们想把这个不确定性表示出来,希望尽可能快地得到奖励,而不是在未来某一个点得到奖励。 +* 如果这个奖励是有实际价值的,我们可能是更希望立刻就得到奖励,而不是后面再得到奖励(现在的钱比以后的钱更有价值)。 * 在人的行为里面来说的话,大家也是想得到即时奖励。 -* 在有些时候可以把这个系数设为 0。设为 0 过后,我们就只关注了它当前的奖励。我们也可以把它设为 1,设为 1 的话就是对未来并没有折扣,未来获得的奖励跟当前获得的奖励是一样的。这个系数其实可以作为强化学习 agent 的一个 hyperparameter 来进行调整,然后就会得到不同行为的 agent。 +* 有些时候可以把这个系数设为 0,设为 0 过后,我们就只关注了它当前的奖励。我们也可以把它设为 1,设为 1 的话就是对未来并没有折扣,未来获得的奖励跟当前获得的奖励是一样的。 + +这个系数其实可以作为强化学习 agent 的一个 hyperparameter 来进行调整,然后就会得到不同行为的 agent。 ![](img/2.11.png)