update ch3

This commit is contained in:
qiwang067
2022-06-27 20:46:34 +08:00
parent d60c3c29bc
commit f53243a99f

View File

@@ -275,7 +275,7 @@ $$
此外,时序差分方法可以从不完整的回合中学习,并且结合了自举的思想。
接下来,我们对时序差分方法进行总结。时序差分方法的目的是对于某个给定的策略 $\pi$在线online地算出它的价值函数 $V_{\pi}$即一步一步地step-by-step算。
最简单的算法是**一步时序差分one-step TD**,即 **TD(0)**。每往前走一步就做一步自举用得到的估计回报estimated return$r_{t+1}+\gamma V(s_{t+1})$ 来更新上一时刻的值 $V(s_t)$
最简单的算法是**一步时序差分one-step TD**,即**TD(0)**。每往前走一步就做一步自举用得到的估计回报estimated return$r_{t+1}+\gamma V(s_{t+1})$ 来更新上一时刻的值 $V(s_t)$
$$
V\left(s_{t}\right) \leftarrow V\left(s_{t}\right)+\alpha\left(r_{t+1}+\gamma V\left(s_{t+1}\right)-V\left(s_{t}\right)\right) \tag{3.1}
$$