This commit is contained in:
qiwang067
2022-06-23 22:20:30 +08:00
parent 448b1ad4cf
commit 71f2ec05a3

View File

@@ -193,14 +193,15 @@ $$
智能体在采取当前动作的时候会依赖于它之前得到的历史,所以我们可以把整个游戏的状态看成关于这个历史的函数:
$$
S_{t}=f\left(H_{t}\right)
$$
<div align=center>
<img width="550" src="../img/ch1/1.21.png"/>
</div>
<div align=center>图 1.13 玩Pong游戏</div>
$$
S_{t}=f\left(H_{t}\right)
$$
Q状态和观测有什么关系?