update errata

This commit is contained in:
qiwang067
2023-01-30 19:45:55 +08:00
parent daad1eef84
commit 7bab0eb596

View File

@@ -47,10 +47,12 @@ pip install gym==0.25.2
![](res/4-19.png ':size=550')
* 127页5.1节的标题:从同策略到异策略 → 重要性采样
* 131页式(5.8)$\nabla \log p_\theta\left(a_t^n \mid s_t^n\right)$ → $\nabla \log p_\theta\left(a_t \mid s_t\right)$
* 131页式(5.8)下面一段的倒数第2行$\nabla \log p_\theta\left(a_t^n \mid s_t^n\right)$ → $\nabla \log p_\theta\left(a_t \mid s_t\right)$
* 131页式(5.9)$\nabla \log p_\theta\left(a_t^n \mid s_t^n\right)$ → $\nabla \log p_\theta\left(a_t \mid s_t\right)$
* 132页式(5.11) 和 式(5.12)$\nabla \log p_\theta\left(a_t^n \mid s_t^n\right)$ → $\nabla \log p_\theta\left(a_t \mid s_t\right)$
* 133页5.2节第二段的第1行到第3行注意由于在 PPO 中 $\theta'$ 是 $\theta_{\text{old}}$,即行为策略也是 $\pi_{\theta}$,因此 PPO 是同策略的算法。如式(5.15) 所示PPO 实际上做的事情就是这样,在异策略的方法里优化目标函数 $J^{\theta^{\prime}}(\theta)$。→ 如式(5.15)所示PPO 需要优化目标函数 $J^{\theta^{\prime}}(\theta)$。
* 133页5.2节第二段的倒数第1行加入以下内容**注意,虽然 PPO 的优化目标涉及到了重要性采样,但其只用到了上一轮策略 $\theta^{\prime}$ 的数据。PPO 目标函数中加入了 KL 散度的约束,行为策略 $\theta^{\prime}$ 和目标策略 $\theta$ 非常接近PPO 的行为策略和目标策略可认为是同一个策略,因此 PPO 是同策略算法。**
* 134页式(5.16)下面一段第2行最大化式 (5.16) → 最大化式 (5.15)
* 165页第一段的第4行到第5行归一化的向量为 $[3,-1,2]^{\mathrm{T}}$ → 归一化的向量为 $[3,-1,-2]^{\mathrm{T}}$
* 165页第二段的第1行向量 $[3,-1,2]^{\mathrm{T}}$ 中的每个元素 → 向量 $[3,-1,-2]^{\mathrm{T}}$ 中的每个元素