diff --git a/docs/chapter5/chapter5.md b/docs/chapter5/chapter5.md index d7fe45a..167a6fd 100644 --- a/docs/chapter5/chapter5.md +++ b/docs/chapter5/chapter5.md @@ -225,5 +225,5 @@ $$ ![](img/5.14.png) -上图是 PPO 跟其它方法的比较。Actor-Critic 和 A2C+Trust Region 方法是actor-critic based 的方法。PPO 是紫色线的方法,这边每张图就是某一个RL 的任务,你会发现说在多数的cases 里面,PPO 都是不错的,不是最好的,就是第二好的。 +上图是 PPO 跟其它方法的比较。Actor-Critic 和 A2C+Trust Region 方法是actor-critic based 的方法。PPO 是紫色线的方法,这边每张图就是某一个 RL 的任务,你会发现说在多数的 cases 里面,PPO 都是不错的,不是最好的,就是第二好的。