Create chapter2_questions&keywords.md

2021-02-03 20:57:53 +08:00
parent fd078f7891
commit 301fdcf9e9
1 changed files with 1 additions and 1 deletions
@@ -99,5 +99,5 @@ $$
 - 高冷的面试官: 请问最佳价值函数(optimal value function) $$v{^}$$ 和最佳策略(optimal policy) $$\pi{^}$$ 为什么等价呢？
-  答: 最佳价值函数的定义为： $$ v{^}(s)=\max_{\pi} v^{\pi}(s) $$ 即我们去搜索一种 policy $$\pi$$ 来让每个状态的价值最大。$$v{^}$$ 就是到达每一个状态，它的值的极大化情况。在这种极大化情况上面，我们得到的策略就可以说它是最佳策略(optimal policy)，如下式所示： $$ \pi^{*}(s)=\underset{\pi}{\arg \max }~ v^{\pi}(s) $$ Optimal policy 使得每个状态的价值函数都取得最大值。所以如果我们可以得到一个 optimal value function，就可以说某一个 MDP 的环境被解。在这种情况下，它的最佳的价值函数是一致的，就它达到的这个上限的值是一致的，但这里可能有多个最佳的 policy，就是说多个 policy 可以取得相同的最佳价值。
+  答: 最佳价值函数的定义为： $$ v{^}(s)=\max _{\pi} v^{\pi}(s) $$ 即我们去搜索一种 policy $$\pi$$ 来让每个状态的价值最大。$$v{^}$$ 就是到达每一个状态，它的值的极大化情况。在这种极大化情况上面，我们得到的策略就可以说它是最佳策略(optimal policy)，如下式所示： $$ \pi^{*}(s)=\underset{\pi}{\arg \max }~ v^{\pi}(s) $$ Optimal policy 使得每个状态的价值函数都取得最大值。所以如果我们可以得到一个 optimal value function，就可以说某一个 MDP 的环境被解。在这种情况下，它的最佳的价值函数是一致的，就它达到的这个上限的值是一致的，但这里可能有多个最佳的 policy，就是说多个 policy 可以取得相同的最佳价值。
`@@ -99,5 +99,5 @@ $$`

	`- 高冷的面试官: 请问最佳价值函数(optimal value function) $$v{^}$$ 和最佳策略(optimal policy) $$\pi{^}$$ 为什么等价呢？`	`- 高冷的面试官: 请问最佳价值函数(optimal value function) $$v{^}$$ 和最佳策略(optimal policy) $$\pi{^}$$ 为什么等价呢？`

	答: 最佳价值函数的定义为： $$ v{^}(s)=\max_{\pi} v^{\pi}(s) $$ 即我们去搜索一种 policy $$\pi$$ 来让每个状态的价值最大。$$v{^}$$ 就是到达每一个状态，它的值的极大化情况。在这种极大化情况上面，我们得到的策略就可以说它是最佳策略(optimal policy)，如下式所示： $$ \pi^{*}(s)=\underset{\pi}{\arg \max }~ v^{\pi}(s) $$ Optimal policy 使得每个状态的价值函数都取得最大值。所以如果我们可以得到一个 optimal value function，就可以说某一个 MDP 的环境被解。在这种情况下，它的最佳的价值函数是一致的，就它达到的这个上限的值是一致的，但这里可能有多个最佳的 policy，就是说多个 policy 可以取得相同的最佳价值。	答: 最佳价值函数的定义为： $$ v{^}(s)=\max _{\pi} v^{\pi}(s) $$ 即我们去搜索一种 policy $$\pi$$ 来让每个状态的价值最大。$$v{^}$$ 就是到达每一个状态，它的值的极大化情况。在这种极大化情况上面，我们得到的策略就可以说它是最佳策略(optimal policy)，如下式所示： $$ \pi^{*}(s)=\underset{\pi}{\arg \max }~ v^{\pi}(s) $$ Optimal policy 使得每个状态的价值函数都取得最大值。所以如果我们可以得到一个 optimal value function，就可以说某一个 MDP 的环境被解。在这种情况下，它的最佳的价值函数是一致的，就它达到的这个上限的值是一致的，但这里可能有多个最佳的 policy，就是说多个 policy 可以取得相同的最佳价值。