fix ch12
This commit is contained in:
@@ -128,8 +128,8 @@ $$
|
|||||||
y\left(r, s^{\prime}, d\right)=r+\gamma(1-d) \min _{i=1,2} Q_{\phi_{i, t a r g}}\left(s^{\prime}, a_{T D 3}\left(s^{\prime}\right)\right)
|
y\left(r, s^{\prime}, d\right)=r+\gamma(1-d) \min _{i=1,2} Q_{\phi_{i, t a r g}}\left(s^{\prime}, a_{T D 3}\left(s^{\prime}\right)\right)
|
||||||
$$
|
$$
|
||||||
|
|
||||||
* **延迟的策略更新(“Delayed” Policy Updates)**。相关实验结果表明,同步训练动作网络和评价网络,却不使用目标网络,会导致训练过程不稳定;但是仅固定动作网络时,评价网络往往能够收敛到正确的结果。因此 TD3 算法以较低的频率更新动作网络,较高频率更新评价网络,通常每更新两次评价网络就更新一次策略。
|
* **延迟的策略更新(“Delayed” Policy Updates)** 。相关实验结果表明,同步训练动作网络和评价网络,却不使用目标网络,会导致训练过程不稳定;但是仅固定动作网络时,评价网络往往能够收敛到正确的结果。因此 TD3 算法以较低的频率更新动作网络,较高频率更新评价网络,通常每更新两次评价网络就更新一次策略。
|
||||||
* **目标策略平滑(Target Policy smoothing)**。TD3 引入了 smoothing 的思想。TD3 在目标动作中加入噪音,通过平滑 Q 沿动作的变化,使策略更难利用 Q 函数的误差。
|
* **目标策略平滑(Target Policy smoothing)** 。TD3 引入了 smoothing 的思想。TD3 在目标动作中加入噪音,通过平滑 Q 沿动作的变化,使策略更难利用 Q 函数的误差。
|
||||||
|
|
||||||
这三个技巧加在一起,使得性能相比基线 DDPG 有了大幅的提升。
|
这三个技巧加在一起,使得性能相比基线 DDPG 有了大幅的提升。
|
||||||
|
|
||||||
|
|||||||
Reference in New Issue
Block a user