update

2022-09-14 10:36:59 +08:00
parent 8f045e2c8c
commit 152829fc43
2 changed files with 1 additions and 1 deletions
--- a/docs/chapter2/chapter2.md
+++ b/docs/chapter2/chapter2.md
@@ -621,7 +621,6 @@ $$
 在这种最大化情况中，我们得到的策略就是最佳策略，即
 $$
  \pi^{*}(s)=\underset{\pi}{\arg \max }~ V_{\pi}(s)
-  
 $$
 最佳策略使得每个状态的价值函数都取得最大值。所以如果我们可以得到一个最佳价值函数，就可以认为某个马尔可夫决策过程的环境可解。在这种情况下，最佳价值函数是一致的，环境中可达到的上限的值是一致的，但这里可能有多个最佳策略，多个最佳策略可以取得相同的最佳价值。

--- a/docs/chapter3/chapter3.md
+++ b/docs/chapter3/chapter3.md
@@ -481,6 +481,7 @@ $$
 <div align=center>
 <img width="550" src="../img/ch3/model_free_control_7.png"/>
 </div>
+
 $\qquad\qquad\qquad\qquad\qquad\qquad\qquad\qquad\qquad$ 图 3.26 基于 $\varepsilon$-贪心探索的蒙特卡洛方法

 与蒙特卡洛方法相比，时序差分方法有如下几个优势：低方差，能够在线学习，能够从不完整的序列中学习。