Update chapter2_questions&keywords.md

This commit is contained in:
David Young
2021-02-03 17:32:18 +08:00
committed by GitHub
parent 157db18d0b
commit a52b7a9055

View File

@@ -86,13 +86,13 @@
- 高冷的面试官: 请分别写出基于状态值函数的贝尔曼方程以及基于动作值的贝尔曼方程. - 高冷的面试官: 请分别写出基于状态值函数的贝尔曼方程以及基于动作值的贝尔曼方程.
答: 答:
1. 基于状态值函数的贝尔曼方程: 1. 基于状态值函数的贝尔曼方程:
$$ $$
v_{\pi}(s) = \sum_{a}{\pi(a|s)}\sum_{s',r}{p(s',r|s,a)[r(s,a)+\gamma v_{\pi}(s')]} v_{\pi}(s) = \sum_{a}{\pi(a|s)}\sum_{s',r}{p(s',r|s,a)[r(s,a)+\gamma v_{\pi}(s')]}
$$ $$
2. 基于动作值的贝尔曼方程: 2. 基于动作值的贝尔曼方程:
$$ $$
q_{\pi}(s,a)=\sum_{s',r}p(s',r|s,a)[r(s',a)+\gamma v_{\pi}(s')] q_{\pi}(s,a)=\sum_{s',r}p(s',r|s,a)[r(s',a)+\gamma v_{\pi}(s')]