udpate ch4

This commit is contained in:
qiwang067
2022-08-18 17:00:55 +08:00
parent 730a689b1d
commit b3608fc01e

View File

@@ -189,7 +189,7 @@ $$
## 4.2 策略梯度实现技巧
下面我们介绍一些在实现策略梯度时可以使用的技巧。
### 4.2.1 技巧 1添加基线
第一个技巧添加基线baseline。如果给定状态 $s$ 采取动作 $a$,整场游戏得到正的奖励,就要增加 $(s,a)$ 的概率。如果给定状态 $s$ 执行动作 $a$,整场游戏得到负的奖励,就要减小 $(s,a)$ 的概率。但在很多游戏里面,奖励总是正的,最低都是 0。比如打乒乓球游戏 分数为 0 \~{} 21 分,所以$R(\tau)$总是正的。假设我们直接使用式(4.5),在训练的时候告诉模型,不管是什么动作,都应该要把它的概率提升。
第一个技巧添加基线baseline。如果给定状态 $s$ 采取动作 $a$,整场游戏得到正的奖励,就要增加 $(s,a)$ 的概率。如果给定状态 $s$ 执行动作 $a$,整场游戏得到负的奖励,就要减小 $(s,a)$ 的概率。但在很多游戏里面,奖励总是正的,最低都是 0。比如打乒乓球游戏 分数为 0 ~ 21 分,所以$R(\tau)$总是正的。假设我们直接使用式(4.5),在训练的时候告诉模型,不管是什么动作,都应该要把它的概率提升。
虽然$R(\tau)$总是正的,但它的值是有大有小的,比如我们在玩乒乓球游戏时,得到的奖励总是正的,但采取某些动作可能得到 0 分,采取某些动作可能得到 20 分。