update ch1

2022-06-25 16:49:40 +08:00
parent a2f6842751
commit 4c8eee7604
1 changed files with 4 additions and 4 deletions
--- a/docs/chapter1/chapter1.md
+++ b/docs/chapter1/chapter1.md
@@ -410,7 +410,7 @@ A：针对是否需要对真实环境建模，强化学习可以分为有模型
 事实上，探索（估计摇臂的优劣）和利用（选择当前最优摇臂)这两者是矛盾的，因为尝试次数（总投币数）有限，加强了一方则自然会削弱另一方，这就是强化学习所面临的**探索-利用窘境（exploration-exploitation dilemma）**。显然，想要累积奖励最大，则必须在探索与利用之间达成较好的折中。
 <div align=center>
-<img width="550" src="../img/ch1/1.39.png"/>
+<img width="300" src="../img/ch1/1.39.png"/>
 </div>
 <div align=center>图 1.23 <i>K</i>-臂赌博机图示</div>