Update chapter2_questions&keywords.md
This commit is contained in:
@@ -86,13 +86,13 @@
|
|||||||
- 高冷的面试官: 请分别写出基于状态值函数的贝尔曼方程以及基于动作值的贝尔曼方程.
|
- 高冷的面试官: 请分别写出基于状态值函数的贝尔曼方程以及基于动作值的贝尔曼方程.
|
||||||
|
|
||||||
答:
|
答:
|
||||||
1. 基于状态值函数的贝尔曼方程:
|
1. 基于状态值函数的贝尔曼方程:
|
||||||
|
|
||||||
$$
|
$$
|
||||||
v_{\pi}(s) = \sum_{a}{\pi(a|s)}\sum_{s',r}{p(s',r|s,a)[r(s,a)+\gamma v_{\pi}(s')]}
|
v_{\pi}(s) = \sum_{a}{\pi(a|s)}\sum_{s',r}{p(s',r|s,a)[r(s,a)+\gamma v_{\pi}(s')]}
|
||||||
$$
|
$$
|
||||||
|
|
||||||
2. 基于动作值的贝尔曼方程:
|
2. 基于动作值的贝尔曼方程:
|
||||||
|
|
||||||
$$
|
$$
|
||||||
q_{\pi}(s,a)=\sum_{s',r}p(s',r|s,a)[r(s',a)+\gamma v_{\pi}(s')]
|
q_{\pi}(s,a)=\sum_{s',r}p(s',r|s,a)[r(s',a)+\gamma v_{\pi}(s')]
|
||||||
|
|||||||
Reference in New Issue
Block a user