udpate chapter4.md
This commit is contained in:
@@ -181,13 +181,11 @@ $$
|
|||||||
|
|
||||||
我们要把每一笔训练数据,都使用 $R(\tau)$ 进行加权。如图 4.9 所示,我们使用 PyTorch 或 TensorFlow 之类的深度学习框架计算梯度就结束了,与一般分类问题差不多。
|
我们要把每一笔训练数据,都使用 $R(\tau)$ 进行加权。如图 4.9 所示,我们使用 PyTorch 或 TensorFlow 之类的深度学习框架计算梯度就结束了,与一般分类问题差不多。
|
||||||
|
|
||||||
|
|
||||||
<div align=center>
|
<div align=center>
|
||||||
<img width="550" src="../img/ch4/4.10.png"/>
|
<img width="550" src="../img/ch4/4.10.png"/>
|
||||||
</div>
|
</div>
|
||||||
<div align=center>图 4.9 自动求梯度</div>
|
<div align=center>图 4.9 自动求梯度</div>
|
||||||
|
|
||||||
|
|
||||||
## 4.2 策略梯度实现技巧
|
## 4.2 策略梯度实现技巧
|
||||||
下面我们介绍一些在实现策略梯度时可以使用的技巧。
|
下面我们介绍一些在实现策略梯度时可以使用的技巧。
|
||||||
### 4.2.1 技巧 1:添加基线
|
### 4.2.1 技巧 1:添加基线
|
||||||
|
|||||||
Reference in New Issue
Block a user