fix ch12
This commit is contained in:
@@ -84,9 +84,8 @@ DDPG 是 DQN 的一个扩展的版本。
|
||||
|
||||
* 评委一开始也不知道怎么评分,它也是在一步一步的学习当中,慢慢地去给出准确的打分。
|
||||
* 我们优化 Q 网络的方法其实跟 DQN 优化 Q 网络的方法是一样的,我们用真实的 reward $r$ 和下一步的 Q 即 Q' 来去拟合未来的收益 Q_target。
|
||||
|
||||
* 然后让 Q 网络的输出去逼近这个 Q_target。
|
||||
* 所以构造的 loss function 就是直接求这两个值的均方差。
|
||||
* 所以构造的 loss function 就是直接求这两个值的均方误差(Mean Squared Error,MSE)。
|
||||
* 构造好 loss 后,我们就扔进去那个优化器,让它自动去最小化 loss 就好了。
|
||||
|
||||

|
||||
|
||||
Reference in New Issue
Block a user