From b3608fc01e4c3c315d197ef510fec7f5a5c2dfb1 Mon Sep 17 00:00:00 2001
From: qiwang067 <qiwang067@163.com>
Date: Thu, 18 Aug 2022 17:00:55 +0800
Subject: [PATCH] udpate ch4

---
 docs/chapter4/chapter4.md | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/docs/chapter4/chapter4.md b/docs/chapter4/chapter4.md
index 4c68267..4550df0 100644
--- a/docs/chapter4/chapter4.md
+++ b/docs/chapter4/chapter4.md
@@ -189,7 +189,7 @@ $$
 ## 4.2 策略梯度实现技巧
 下面我们介绍一些在实现策略梯度时可以使用的技巧。
 ### 4.2.1 技巧 1：添加基线
-第一个技巧：添加基线（baseline）。如果给定状态 $s$ 采取动作 $a$，整场游戏得到正的奖励，就要增加 $(s,a)$ 的概率。如果给定状态 $s$ 执行动作 $a$，整场游戏得到负的奖励，就要减小 $(s,a)$ 的概率。但在很多游戏里面，奖励总是正的，最低都是 0。比如打乒乓球游戏， 分数为 0 \~{} 21 分，所以$R(\tau)$总是正的。假设我们直接使用式(4.5)，在训练的时候告诉模型，不管是什么动作，都应该要把它的概率提升。 
+第一个技巧：添加基线（baseline）。如果给定状态 $s$ 采取动作 $a$，整场游戏得到正的奖励，就要增加 $(s,a)$ 的概率。如果给定状态 $s$ 执行动作 $a$，整场游戏得到负的奖励，就要减小 $(s,a)$ 的概率。但在很多游戏里面，奖励总是正的，最低都是 0。比如打乒乓球游戏， 分数为 0 ~ 21 分，所以$R(\tau)$总是正的。假设我们直接使用式(4.5)，在训练的时候告诉模型，不管是什么动作，都应该要把它的概率提升。 
 
 虽然$R(\tau)$总是正的，但它的值是有大有小的，比如我们在玩乒乓球游戏时，得到的奖励总是正的，但采取某些动作可能得到 0 分，采取某些动作可能得到 20 分。