This commit is contained in:
qiwang067
2022-04-04 21:36:47 +08:00
parent b177c616ed
commit 096f31cb24

View File

@@ -84,9 +84,8 @@ DDPG 是 DQN 的一个扩展的版本。
* 评委一开始也不知道怎么评分,它也是在一步一步的学习当中,慢慢地去给出准确的打分。
* 我们优化 Q 网络的方法其实跟 DQN 优化 Q 网络的方法是一样的,我们用真实的 reward $r$ 和下一步的 Q 即 Q' 来去拟合未来的收益 Q_target。
* 然后让 Q 网络的输出去逼近这个 Q_target。
* 所以构造的 loss function 就是直接求这两个值的均方
* 所以构造的 loss function 就是直接求这两个值的均方误差Mean Squared ErrorMSE
* 构造好 loss 后,我们就扔进去那个优化器,让它自动去最小化 loss 就好了。
![](img/12.8.png)