udpate ch4

2022-08-18 17:00:55 +08:00
parent 730a689b1d
commit b3608fc01e
1 changed files with 1 additions and 1 deletions
--- a/docs/chapter4/chapter4.md
+++ b/docs/chapter4/chapter4.md
@@ -189,7 +189,7 @@ $$
 ## 4.2 策略梯度实现技巧
 下面我们介绍一些在实现策略梯度时可以使用的技巧。
 ### 4.2.1 技巧 1：添加基线
-第一个技巧：添加基线（baseline）。如果给定状态 $s$ 采取动作 $a$，整场游戏得到正的奖励，就要增加 $(s,a)$ 的概率。如果给定状态 $s$ 执行动作 $a$，整场游戏得到负的奖励，就要减小 $(s,a)$ 的概率。但在很多游戏里面，奖励总是正的，最低都是 0。比如打乒乓球游戏， 分数为 0 \~{} 21 分，所以$R(\tau)$总是正的。假设我们直接使用式(4.5)，在训练的时候告诉模型，不管是什么动作，都应该要把它的概率提升。 
+第一个技巧：添加基线（baseline）。如果给定状态 $s$ 采取动作 $a$，整场游戏得到正的奖励，就要增加 $(s,a)$ 的概率。如果给定状态 $s$ 执行动作 $a$，整场游戏得到负的奖励，就要减小 $(s,a)$ 的概率。但在很多游戏里面，奖励总是正的，最低都是 0。比如打乒乓球游戏， 分数为 0 ~ 21 分，所以$R(\tau)$总是正的。假设我们直接使用式(4.5)，在训练的时候告诉模型，不管是什么动作，都应该要把它的概率提升。 

 虽然$R(\tau)$总是正的，但它的值是有大有小的，比如我们在玩乒乓球游戏时，得到的奖励总是正的，但采取某些动作可能得到 0 分，采取某些动作可能得到 20 分。