Update chapter5_questions&keywords.md

This commit is contained in:
David Young
2020-09-08 09:15:12 +08:00
committed by GitHub
parent d0aafaf562
commit 5876b17518

View File

@@ -1,13 +1,13 @@
## Chapter5 Proximal Policy Optimization(PPO)
# Chapter5 Proximal Policy Optimization(PPO)
#### 1 关键词
## 1 Keywords
- **on-policy(同策略)** 要learn的agent和环境互动的agent是同一个时对应的policy。
- **off-policy(异策略)** 要learn的agent和环境互动的agent不是同一个时对应的policy。
- **important sampling重要性采样** 使用另外一种数据分布,来逼近所求分布的一种方法,在强化学习中通常和蒙特卡罗方法结合使用,公式如下:$\int f(x) p(x) d x=\int f(x) \frac{p(x)}{q(x)} q(x) d x=E_{x \sim q}[f(x){\frac{p(x)}{q(x)}}]=E_{x \sim p}[f(x)]$ 我们在已知 $q$ 的分布后,可以使用上述公式计算出从 $p$ 这个distribution sample x 代入 $f$ 以后所算出来的期望值。
- **Proximal Policy Optimization (PPO)** 避免在使用important sampling时由于在 $\theta$ 下的 $p_{\theta}\left(a_{t} | s_{t}\right)$ 跟 在 $\theta '$ 下的 $p_{\theta'}\left(a_{t} | s_{t}\right)$ 差太多导致important sampling结果偏差较大而采取的算法。具体来说就是在training的过程中增加一个constrain这个constrain对应着 $\theta$ 跟 $\theta'$ output 的 action 的 KL divergence来衡量 $\theta$ 与 $\theta'$ 的相似程度。
#### 2 思考题
## 2 Questions
- 基于on-policy的policy gradient有什么可改进之处或者说其效率较低的原因在于