update ch3

This commit is contained in:
qiwang067
2022-11-23 20:53:00 +08:00
parent 4f1f71aa2d
commit 2603115ab6

View File

@@ -598,7 +598,7 @@ Q学习是一种**异策略off-policy**算法。如图 3.31 所示,异
<div align=center>
<img width="550" src="../img/ch3/3.17.png"/>
</div>
<div align=center>图 3.21 异策略</div>
<div align=center>图 3.31 异策略</div>
再例如,如图 3.32 所示比如环境是波涛汹涌的大海但学习策略learning policy太“胆小”了无法直接与环境交互学习所以我们有了探索策略exploratory policy探索策略是一个不畏风浪的海盗它非常激进可以在环境中探索。因此探索策略有很多经验它可以把这些经验“写成稿子”然后“喂”给学习策略。学习策略可以通过稿子进行学习。