update ch1

This commit is contained in:
qiwang067
2022-06-25 16:49:40 +08:00
parent a2f6842751
commit 4c8eee7604

View File

@@ -410,7 +410,7 @@ A针对是否需要对真实环境建模强化学习可以分为有模型
事实上,探索(估计摇臂的优劣)和利用(选择当前最优摇臂)这两者是矛盾的,因为尝试次数(总投币数)有限,加强了一方则自然会削弱另一方,这就是强化学习所面临的**探索-利用窘境exploration-exploitation dilemma**。显然,想要累积奖励最大,则必须在探索与利用之间达成较好的折中。 事实上,探索(估计摇臂的优劣)和利用(选择当前最优摇臂)这两者是矛盾的,因为尝试次数(总投币数)有限,加强了一方则自然会削弱另一方,这就是强化学习所面临的**探索-利用窘境exploration-exploitation dilemma**。显然,想要累积奖励最大,则必须在探索与利用之间达成较好的折中。
<div align=center> <div align=center>
<img width="550" src="../img/ch1/1.39.png"/> <img width="300" src="../img/ch1/1.39.png"/>
</div> </div>
<div align=center>图 1.23 <i>K</i>-臂赌博机图示</div> <div align=center>图 1.23 <i>K</i>-臂赌博机图示</div>