fix ch12

2022-04-04 21:36:47 +08:00
parent b177c616ed
commit 096f31cb24
1 changed files with 1 additions and 2 deletions
@@ -84,9 +84,8 @@ DDPG 是 DQN 的一个扩展的版本。

 * 评委一开始也不知道怎么评分，它也是在一步一步的学习当中，慢慢地去给出准确的打分。
 * 我们优化 Q 网络的方法其实跟 DQN 优化 Q 网络的方法是一样的，我们用真实的 reward $r$ 和下一步的 Q 即 Q' 来去拟合未来的收益 Q_target。
-
 * 然后让 Q 网络的输出去逼近这个 Q_target。
-  * 所以构造的 loss function 就是直接求这两个值的均方差。
+  * 所以构造的 loss function 就是直接求这两个值的均方误差（Mean Squared Error，MSE）。
  * 构造好 loss 后，我们就扔进去那个优化器，让它自动去最小化 loss 就好了。

 ![](img/12.8.png)