update ch5
This commit is contained in:
@@ -232,7 +232,7 @@ $$
|
||||
|
||||
这样的好处就是,我们不会让 $p_{\theta}(a_{t} | s_{t})$ 与 $p_{\theta^k}(a_{t} | s_{t})$ 差距太大。要实现这个其实很简单。
|
||||
|
||||
图 5.4 所示为 PPO 与其他算法的比较。优势演员-评论员和优势演员-评论员+信任区域(trust region)算法是基于演员-评论员的方法。PPO 算法是用紫色线表示,图 5.4 中每张子图表示某一个强化学习的任务,在多数情况中,PPO 都是不错的,即时不是最好的,也是第二好的。
|
||||
图 5.4 所示为 PPO 与其他算法的比较。优势演员-评论员和优势演员-评论员+信任区域(trust region)算法是基于演员-评论员的方法。PPO 算法是用紫色线表示,图 5.4 中每张子图表示某一个强化学习的任务,在多数情况中,PPO 都是不错的,即使不是最好的,也是第二好的。
|
||||
|
||||
<div align=center>
|
||||
<img width="550" src="../img/ch5/5.4.png"/>
|
||||
|
||||
Reference in New Issue
Block a user