update ch1
This commit is contained in:
@@ -410,7 +410,7 @@ A:针对是否需要对真实环境建模,强化学习可以分为有模型
|
|||||||
事实上,探索(估计摇臂的优劣)和利用(选择当前最优摇臂)这两者是矛盾的,因为尝试次数(总投币数)有限,加强了一方则自然会削弱另一方,这就是强化学习所面临的**探索-利用窘境(exploration-exploitation dilemma)**。显然,想要累积奖励最大,则必须在探索与利用之间达成较好的折中。
|
事实上,探索(估计摇臂的优劣)和利用(选择当前最优摇臂)这两者是矛盾的,因为尝试次数(总投币数)有限,加强了一方则自然会削弱另一方,这就是强化学习所面临的**探索-利用窘境(exploration-exploitation dilemma)**。显然,想要累积奖励最大,则必须在探索与利用之间达成较好的折中。
|
||||||
|
|
||||||
<div align=center>
|
<div align=center>
|
||||||
<img width="550" src="../img/ch1/1.39.png"/>
|
<img width="300" src="../img/ch1/1.39.png"/>
|
||||||
</div>
|
</div>
|
||||||
<div align=center>图 1.23 <i>K</i>-臂赌博机图示</div>
|
<div align=center>图 1.23 <i>K</i>-臂赌博机图示</div>
|
||||||
|
|
||||||
|
|||||||
Reference in New Issue
Block a user