From b3608fc01e4c3c315d197ef510fec7f5a5c2dfb1 Mon Sep 17 00:00:00 2001 From: qiwang067 Date: Thu, 18 Aug 2022 17:00:55 +0800 Subject: [PATCH] udpate ch4 --- docs/chapter4/chapter4.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/docs/chapter4/chapter4.md b/docs/chapter4/chapter4.md index 4c68267..4550df0 100644 --- a/docs/chapter4/chapter4.md +++ b/docs/chapter4/chapter4.md @@ -189,7 +189,7 @@ $$ ## 4.2 策略梯度实现技巧 下面我们介绍一些在实现策略梯度时可以使用的技巧。 ### 4.2.1 技巧 1:添加基线 -第一个技巧:添加基线(baseline)。如果给定状态 $s$ 采取动作 $a$,整场游戏得到正的奖励,就要增加 $(s,a)$ 的概率。如果给定状态 $s$ 执行动作 $a$,整场游戏得到负的奖励,就要减小 $(s,a)$ 的概率。但在很多游戏里面,奖励总是正的,最低都是 0。比如打乒乓球游戏, 分数为 0 \~{} 21 分,所以$R(\tau)$总是正的。假设我们直接使用式(4.5),在训练的时候告诉模型,不管是什么动作,都应该要把它的概率提升。 +第一个技巧:添加基线(baseline)。如果给定状态 $s$ 采取动作 $a$,整场游戏得到正的奖励,就要增加 $(s,a)$ 的概率。如果给定状态 $s$ 执行动作 $a$,整场游戏得到负的奖励,就要减小 $(s,a)$ 的概率。但在很多游戏里面,奖励总是正的,最低都是 0。比如打乒乓球游戏, 分数为 0 ~ 21 分,所以$R(\tau)$总是正的。假设我们直接使用式(4.5),在训练的时候告诉模型,不管是什么动作,都应该要把它的概率提升。 虽然$R(\tau)$总是正的,但它的值是有大有小的,比如我们在玩乒乓球游戏时,得到的奖励总是正的,但采取某些动作可能得到 0 分,采取某些动作可能得到 20 分。