fix some typos

2020-10-17 20:11:44 +08:00
parent 91adc6a5e5
commit 46f13d141e
1 changed files with 1 additions and 1 deletions
--- a/docs/chapter3/chapter3.md
+++ b/docs/chapter3/chapter3.md
@@ -121,7 +121,7 @@ $$

 软更新的方式就是 $\alpha$ ，每次我只更新一点点，$\alpha$ 有点类似于学习率。最终的话，Q 值都是可以慢慢地逼近到真实的 target 值。这样我们的更新公式只需要用到当前时刻的 $S_{t},A_t$  ，然后还有拿到的 $R_{t+1}, S_{t+1}，A_{t+1}$ 。

-该算法由于每次更新值函数需要知道前一步的状态(state)，前一步的动作(action)、奖励(reward)、当前状态(state)、将要执行的动作(action)，即 $(S_{t}, A_{t}, R_{t+1}, S_{t+1}, A_{t+1})$ 这几个值 ，由此得名 `Sarsa` 算法。它走了一步之后，拿到了 $(S_{t}, A_{t}, R_{t+1}, S_{t+1}, A_{t+1})$ 之后，就可以做一次更新。
+**该算法由于每次更新值函数需要知道当前的状态(state)、当前的动作(action)、奖励(reward)、下一步的状态(state)、下一步的动作(action)，即 $(S_{t}, A_{t}, R_{t+1}, S_{t+1}, A_{t+1})$ 这几个值 ，由此得名 `Sarsa` 算法**。它走了一步之后，拿到了 $(S_{t}, A_{t}, R_{t+1}, S_{t+1}, A_{t+1})$ 之后，就可以做一次更新。

 ![](img/3.15.png)