fix some typos

This commit is contained in:
qiwang067
2020-12-02 22:26:09 +08:00
parent 5ab0cdb572
commit 9e5f9c4605
2 changed files with 18 additions and 15 deletions

View File

@@ -12,8 +12,7 @@
![](img/5.1.png)
PPO 是 policy gradient 的一个变形,它是现在 OpenAI 默认的 reinforcement learning 的 algorithm。
`近端策略优化(Proximal Policy Optimization简称 PPO)` 是 policy gradient 的一个变形,它是现在 OpenAI 默认的 reinforcement learning 的 algorithm。
$$
\nabla \bar{R}_{\theta}=E_{\tau \sim p_{\theta}(\tau)}\left[R(\tau) \nabla \log p_{\theta}(\tau)\right]
$$
@@ -153,7 +152,8 @@ PPO 实际上做的事情就是这样,在 off-policy 的方法里要 optimize
然后我们希望在 training 的过程中learn 出来的 $\theta$ 跟 $\theta'$ 越像越好。因为如果 $\theta$ 跟 $\theta'$ 不像的话,最后的结果就会不好。所以在 PPO 里面有两个式子,一方面是 optimize 本来要 optimize 的东西,但再加一个 constrain。这个 constrain 就好像那个 regularization 的 term 一样,在做 machine learning 的时候不是有 L1/L2 的 regularization。这一项也很像 regularization这样 regularization 做的事情就是希望最后 learn 出来的 $\theta$ 不要跟 $\theta'$ 太不一样。
PPO 有一个前身叫做 `TRPO(Trust Region Policy Optimization)`TRPO 的式子如下式所示。
PPO 有一个前身叫做`信任区域策略优化(Trust Region Policy OptimizationTRPO)`TRPO 的式子如下式所示。
$$
\begin{aligned}
J_{T R P O}^{\theta^{\prime}}(\theta)=E_{\left(s_{t}, a_{t}\right) \sim \pi_{\theta^{\prime}}}\left[\frac{p_{\theta}\left(a_{t} | s_{t}\right)}{p_{\theta^{\prime}}\left(a_{t} | s_{t}\right)} A^{\theta^{\prime}}\left(s_{t}, a_{t}\right)\right] \\ \\