From 6dc6d9e4263124e86b134e0e3d43bc27d689295b Mon Sep 17 00:00:00 2001
From: qiwang067 <qiwang067@163.com>
Date: Wed, 14 Sep 2022 10:49:21 +0800
Subject: [PATCH] update

---
 docs/chapter2/chapter2.md | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/docs/chapter2/chapter2.md b/docs/chapter2/chapter2.md
index 6b1e430..773b266 100644
--- a/docs/chapter2/chapter2.md
+++ b/docs/chapter2/chapter2.md
@@ -620,7 +620,7 @@ $$
 最佳价值函数是指，我们搜索一种策略$\pi$ 让每个状态的价值最大。$V^*$ 就是到达每一个状态，它的值的最大化情况。
 在这种最大化情况中，我们得到的策略就是最佳策略，即
 $$
-  \pi^{*}(s)=\underset{\pi}{\arg \max }~ V_{\pi}(s)
+\pi^{*}(s)=\underset{\pi}{\arg \max }~ V_{\pi}(s)
 $$
 最佳策略使得每个状态的价值函数都取得最大值。所以如果我们可以得到一个最佳价值函数，就可以认为某个马尔可夫决策过程的环境可解。在这种情况下，最佳价值函数是一致的，环境中可达到的上限的值是一致的，但这里可能有多个最佳策略，多个最佳策略可以取得相同的最佳价值。