From 73f5e181df528618f5631e0caf90a42b0ac1be2c Mon Sep 17 00:00:00 2001
From: qiwang067 <qiwang067@163.com>
Date: Thu, 25 Aug 2022 09:58:32 +0800
Subject: [PATCH] udpate ch4

---
 docs/chapter4/chapter4.md | 7 +++++--
 1 file changed, 5 insertions(+), 2 deletions(-)
diff --git a/docs/chapter4/chapter4.md b/docs/chapter4/chapter4.md
index c459be8..b4dfac1 100644
--- a/docs/chapter4/chapter4.md
+++ b/docs/chapter4/chapter4.md
@@ -269,7 +269,7 @@ $$
 
 ## 4.3 REINFORCE：蒙特卡洛策略梯度
 
-如图 4.13 所示，蒙特卡洛方法可以理解为算法完成一个回合之后，再利用这个回合的数据去学习，做一次更新。因为我们已经获得了整个回合的数据，所以也能够获得每一个步骤的奖励，我们可以很方便地计算每个步骤的未来总奖励，即回报 $G_t$ 。$G_t$ 是未来总奖励，代表从这个步骤开始，我们能获得的奖励之和。$G_1 $代表我们从第一步开始，往后能够获得的总奖励。$G_2$ 代表从第二步开始，往后能够获得的总奖励。
+如图 4.13 所示，蒙特卡洛方法可以理解为算法完成一个回合之后，再利用这个回合的数据去学习，做一次更新。因为我们已经获得了整个回合的数据，所以也能够获得每一个步骤的奖励，我们可以很方便地计算每个步骤的未来总奖励，即回报 $G_t$ 。$G_t$ 是未来总奖励，代表从这个步骤开始，我们能获得的奖励之和。$G_1$代表我们从第一步开始，往后能够获得的总奖励。$G_2$ 代表从第二步开始，往后能够获得的总奖励。
 
 相比蒙特卡洛方法一个回合更新一次，时序差分方法是每个步骤更新一次，即每走一步，更新一次，时序差分方法的更新频率更高。时序差分方法使用Q函数来近似地表示未来总奖励 $G_t$。
 
@@ -370,7 +370,10 @@ $$
 </div>
 <div align=center>图 4.20 REINFORCE算法示意</div>
     
-
+## 参考文献
+* [Intro to Reinforcement Learning (强化学习纲要）](https://github.com/zhoubolei/introRL)
+* [神经网络与深度学习](https://nndl.github.io/)
+* [百面深度学习](https://book.douban.com/subject/35043939/)