From a52b7a90554237e674ef0b7849c857b5a16c0d03 Mon Sep 17 00:00:00 2001 From: David Young <46375780+yyysjz1997@users.noreply.github.com> Date: Wed, 3 Feb 2021 17:32:18 +0800 Subject: [PATCH] Update chapter2_questions&keywords.md --- docs/chapter2/chapter2_questions&keywords.md | 4 ++-- 1 file changed, 2 insertions(+), 2 deletions(-) diff --git a/docs/chapter2/chapter2_questions&keywords.md b/docs/chapter2/chapter2_questions&keywords.md index 228430c..dae73b7 100644 --- a/docs/chapter2/chapter2_questions&keywords.md +++ b/docs/chapter2/chapter2_questions&keywords.md @@ -86,13 +86,13 @@ - 高冷的面试官: 请分别写出基于状态值函数的贝尔曼方程以及基于动作值的贝尔曼方程. 答: - 1. 基于状态值函数的贝尔曼方程: + 1. 基于状态值函数的贝尔曼方程: $$ v_{\pi}(s) = \sum_{a}{\pi(a|s)}\sum_{s',r}{p(s',r|s,a)[r(s,a)+\gamma v_{\pi}(s')]} $$ - 2. 基于动作值的贝尔曼方程: + 2. 基于动作值的贝尔曼方程: $$ q_{\pi}(s,a)=\sum_{s',r}p(s',r|s,a)[r(s',a)+\gamma v_{\pi}(s')]