diff --git a/docs/chapter2/chapter2.md b/docs/chapter2/chapter2.md index ac0744c..3a555fa 100644 --- a/docs/chapter2/chapter2.md +++ b/docs/chapter2/chapter2.md @@ -147,7 +147,6 @@ $$ \mathbb{E}\left[G_{t+1} \mid s_{t+1}\right] &=\mathbb{E}\left[g^{\prime} \mid s^{\prime}\right] \\ &=\sum_{g^{\prime}} g^{\prime}~p\left(g^{\prime} \mid s^{\prime}\right) \end{aligned} \tag{2.2} - $$ >如果 $X$ 和 $Y$ 都是离散型随机变量,则条件期望(conditional expectation)$\mathbb{E}[X|Y=y]$ 定义为 @@ -334,19 +333,19 @@ $$ 马尔可夫决策过程中的价值函数可定义为 $$ - V_{\pi}(s)=\mathbb{E}_{\pi}\left[G_{t} \mid s_{t}=s\right] \tag{2.3} +V_{\pi}(s)=\mathbb{E}_{\pi}\left[G_{t} \mid s_{t}=s\right] \tag{2.3} $$ 其中,期望基于我们采取的策略。当策略决定后,我们通过对策略进行采样来得到一个期望,计算出它的价值函数。 这里我们另外引入了一个 **Q 函数(Q-function)**。Q 函数也被称为**动作价值函数(action-value function)**。Q 函数定义的是在某一个状态采取某一个动作,它有可能得到的回报的一个期望,即 $$ - Q_{\pi}(s, a)=\mathbb{E}_{\pi}\left[G_{t} \mid s_{t}=s, a_{t}=a\right] \tag{2.4} +Q_{\pi}(s, a)=\mathbb{E}_{\pi}\left[G_{t} \mid s_{t}=s, a_{t}=a\right] \tag{2.4} $$ 这里的期望其实也是基于策略函数的。所以我们需要对策略函数进行一个加和,然后得到它的价值。 对 Q 函数中的动作进行加和,就可以得到价值函数: $$ - V_{\pi}(s)=\sum_{a \in A} \pi(a \mid s) Q_{\pi}(s, a) - \tag{2.5} +V_{\pi}(s)=\sum_{a \in A} \pi(a \mid s) Q_{\pi}(s, a) +\tag{2.5} $$ 此处我们对 Q 函数的贝尔曼方程进行推导: