update ch5

This commit is contained in:
qiwang067
2023-03-11 21:04:07 +08:00
parent 7afe27e920
commit 7c26b43d04

View File

@@ -232,7 +232,7 @@ $$
这样的好处就是,我们不会让 $p_{\theta}(a_{t} | s_{t})$ 与 $p_{\theta^k}(a_{t} | s_{t})$ 差距太大。要实现这个其实很简单。
图 5.4 所示为 PPO 与其他算法的比较。优势演员-评论员和优势演员-评论员+信任区域trust region算法是基于演员-评论员的方法。PPO 算法是用紫色线表示,图 5.4 中每张子图表示某一个强化学习的任务在多数情况中PPO 都是不错的,即不是最好的,也是第二好的。
图 5.4 所示为 PPO 与其他算法的比较。优势演员-评论员和优势演员-评论员+信任区域trust region算法是基于演员-评论员的方法。PPO 算法是用紫色线表示,图 5.4 中每张子图表示某一个强化学习的任务在多数情况中PPO 都是不错的,即使不是最好的,也是第二好的。
<div align=center>
<img width="550" src="../img/ch5/5.4.png"/>