diff --git a/docs/chapter2/chapter2_questions&keywords.md b/docs/chapter2/chapter2_questions&keywords.md index dae73b7..faa8c6b 100644 --- a/docs/chapter2/chapter2_questions&keywords.md +++ b/docs/chapter2/chapter2_questions&keywords.md @@ -86,18 +86,18 @@ - 高冷的面试官: 请分别写出基于状态值函数的贝尔曼方程以及基于动作值的贝尔曼方程. 答: - 1. 基于状态值函数的贝尔曼方程: +1. 基于状态值函数的贝尔曼方程: $$ v_{\pi}(s) = \sum_{a}{\pi(a|s)}\sum_{s',r}{p(s',r|s,a)[r(s,a)+\gamma v_{\pi}(s')]} $$ - 2. 基于动作值的贝尔曼方程: +2. 基于动作值的贝尔曼方程: $$ q_{\pi}(s,a)=\sum_{s',r}p(s',r|s,a)[r(s',a)+\gamma v_{\pi}(s')] $$ -- 高冷的面试官: 请问最佳价值函数(optimal value function) $v^$ 和最佳策略(optimal policy) $ \pi^$ 为什么等价呢? +- 高冷的面试官: 请问最佳价值函数(optimal value function) $$v^$$ 和最佳策略(optimal policy) $$\pi^$$ 为什么等价呢? - 答: 最佳价值函数的定义为: $$ v^(s)=\max _{\pi} v^{\pi}(s) $$ 即我们去搜索一种 policy $\pi$ 来让每个状态的价值最大。$v^$ 就是到达每一个状态,它的值的极大化情况。在这种极大化情况上面,我们得到的策略就可以说它是最佳策略(optimal policy),如下式所示: $$ \pi^{*}(s)=\underset{\pi}{\arg \max }~ v^{\pi}(s) $$ Optimal policy 使得每个状态的价值函数都取得最大值。所以如果我们可以得到一个 optimal value function,就可以说某一个 MDP 的环境被解。在这种情况下,它的最佳的价值函数是一致的,就它达到的这个上限的值是一致的,但这里可能有多个最佳的 policy,就是说多个 policy 可以取得相同的最佳价值。 + 答: 最佳价值函数的定义为: $$ v^(s)=\max _{\pi} v^{\pi}(s) $$ 即我们去搜索一种 policy $$\pi$$ 来让每个状态的价值最大。$$v^$$ 就是到达每一个状态,它的值的极大化情况。在这种极大化情况上面,我们得到的策略就可以说它是最佳策略(optimal policy),如下式所示: $$ \pi^{*}(s)=\underset{\pi}{\arg \max }~ v^{\pi}(s) $$ Optimal policy 使得每个状态的价值函数都取得最大值。所以如果我们可以得到一个 optimal value function,就可以说某一个 MDP 的环境被解。在这种情况下,它的最佳的价值函数是一致的,就它达到的这个上限的值是一致的,但这里可能有多个最佳的 policy,就是说多个 policy 可以取得相同的最佳价值。