udpate ch4
This commit is contained in:
@@ -269,7 +269,7 @@ $$
|
|||||||
|
|
||||||
## 4.3 REINFORCE:蒙特卡洛策略梯度
|
## 4.3 REINFORCE:蒙特卡洛策略梯度
|
||||||
|
|
||||||
如图 4.13 所示,蒙特卡洛方法可以理解为算法完成一个回合之后,再利用这个回合的数据去学习,做一次更新。因为我们已经获得了整个回合的数据,所以也能够获得每一个步骤的奖励,我们可以很方便地计算每个步骤的未来总奖励,即回报 $G_t$ 。$G_t$ 是未来总奖励,代表从这个步骤开始,我们能获得的奖励之和。$G_1 $代表我们从第一步开始,往后能够获得的总奖励。$G_2$ 代表从第二步开始,往后能够获得的总奖励。
|
如图 4.13 所示,蒙特卡洛方法可以理解为算法完成一个回合之后,再利用这个回合的数据去学习,做一次更新。因为我们已经获得了整个回合的数据,所以也能够获得每一个步骤的奖励,我们可以很方便地计算每个步骤的未来总奖励,即回报 $G_t$ 。$G_t$ 是未来总奖励,代表从这个步骤开始,我们能获得的奖励之和。$G_1$代表我们从第一步开始,往后能够获得的总奖励。$G_2$ 代表从第二步开始,往后能够获得的总奖励。
|
||||||
|
|
||||||
相比蒙特卡洛方法一个回合更新一次,时序差分方法是每个步骤更新一次,即每走一步,更新一次,时序差分方法的更新频率更高。时序差分方法使用Q函数来近似地表示未来总奖励 $G_t$。
|
相比蒙特卡洛方法一个回合更新一次,时序差分方法是每个步骤更新一次,即每走一步,更新一次,时序差分方法的更新频率更高。时序差分方法使用Q函数来近似地表示未来总奖励 $G_t$。
|
||||||
|
|
||||||
@@ -370,7 +370,10 @@ $$
|
|||||||
</div>
|
</div>
|
||||||
<div align=center>图 4.20 REINFORCE算法示意</div>
|
<div align=center>图 4.20 REINFORCE算法示意</div>
|
||||||
|
|
||||||
|
## 参考文献
|
||||||
|
* [Intro to Reinforcement Learning (强化学习纲要)](https://github.com/zhoubolei/introRL)
|
||||||
|
* [神经网络与深度学习](https://nndl.github.io/)
|
||||||
|
* [百面深度学习](https://book.douban.com/subject/35043939/)
|
||||||
|
|
||||||
|
|
||||||
|
|
||||||
|
|||||||
Reference in New Issue
Block a user