From 152829fc430161dd94a97eda149b20b8c79f559f Mon Sep 17 00:00:00 2001 From: qiwang067 Date: Wed, 14 Sep 2022 10:36:59 +0800 Subject: [PATCH] update --- docs/chapter2/chapter2.md | 1 - docs/chapter3/chapter3.md | 1 + 2 files changed, 1 insertion(+), 1 deletion(-) diff --git a/docs/chapter2/chapter2.md b/docs/chapter2/chapter2.md index 54a893a..fc97883 100644 --- a/docs/chapter2/chapter2.md +++ b/docs/chapter2/chapter2.md @@ -621,7 +621,6 @@ $$ 在这种最大化情况中,我们得到的策略就是最佳策略,即 $$ \pi^{*}(s)=\underset{\pi}{\arg \max }~ V_{\pi}(s) - $$ 最佳策略使得每个状态的价值函数都取得最大值。所以如果我们可以得到一个最佳价值函数,就可以认为某个马尔可夫决策过程的环境可解。在这种情况下,最佳价值函数是一致的,环境中可达到的上限的值是一致的,但这里可能有多个最佳策略,多个最佳策略可以取得相同的最佳价值。 diff --git a/docs/chapter3/chapter3.md b/docs/chapter3/chapter3.md index fede757..be3d49b 100644 --- a/docs/chapter3/chapter3.md +++ b/docs/chapter3/chapter3.md @@ -481,6 +481,7 @@ $$
+ $\qquad\qquad\qquad\qquad\qquad\qquad\qquad\qquad\qquad$ 图 3.26 基于 $\varepsilon$-贪心探索的蒙特卡洛方法 与蒙特卡洛方法相比,时序差分方法有如下几个优势:低方差,能够在线学习,能够从不完整的序列中学习。