diff --git a/docs/chapter2/chapter2_questions&keywords.md b/docs/chapter2/chapter2_questions&keywords.md index 228430c..dae73b7 100644 --- a/docs/chapter2/chapter2_questions&keywords.md +++ b/docs/chapter2/chapter2_questions&keywords.md @@ -86,13 +86,13 @@ - 高冷的面试官: 请分别写出基于状态值函数的贝尔曼方程以及基于动作值的贝尔曼方程. 答: - 1. 基于状态值函数的贝尔曼方程: + 1. 基于状态值函数的贝尔曼方程: $$ v_{\pi}(s) = \sum_{a}{\pi(a|s)}\sum_{s',r}{p(s',r|s,a)[r(s,a)+\gamma v_{\pi}(s')]} $$ - 2. 基于动作值的贝尔曼方程: + 2. 基于动作值的贝尔曼方程: $$ q_{\pi}(s,a)=\sum_{s',r}p(s',r|s,a)[r(s',a)+\gamma v_{\pi}(s')]