update ch2
This commit is contained in:
@@ -147,7 +147,6 @@ $$
|
||||
\mathbb{E}\left[G_{t+1} \mid s_{t+1}\right] &=\mathbb{E}\left[g^{\prime} \mid s^{\prime}\right] \\
|
||||
&=\sum_{g^{\prime}} g^{\prime}~p\left(g^{\prime} \mid s^{\prime}\right)
|
||||
\end{aligned} \tag{2.2}
|
||||
|
||||
$$
|
||||
|
||||
>如果 $X$ 和 $Y$ 都是离散型随机变量,则条件期望(conditional expectation)$\mathbb{E}[X|Y=y]$ 定义为
|
||||
@@ -334,19 +333,19 @@ $$
|
||||
|
||||
马尔可夫决策过程中的价值函数可定义为
|
||||
$$
|
||||
V_{\pi}(s)=\mathbb{E}_{\pi}\left[G_{t} \mid s_{t}=s\right] \tag{2.3}
|
||||
V_{\pi}(s)=\mathbb{E}_{\pi}\left[G_{t} \mid s_{t}=s\right] \tag{2.3}
|
||||
$$
|
||||
其中,期望基于我们采取的策略。当策略决定后,我们通过对策略进行采样来得到一个期望,计算出它的价值函数。
|
||||
|
||||
这里我们另外引入了一个 **Q 函数(Q-function)**。Q 函数也被称为**动作价值函数(action-value function)**。Q 函数定义的是在某一个状态采取某一个动作,它有可能得到的回报的一个期望,即
|
||||
$$
|
||||
Q_{\pi}(s, a)=\mathbb{E}_{\pi}\left[G_{t} \mid s_{t}=s, a_{t}=a\right] \tag{2.4}
|
||||
Q_{\pi}(s, a)=\mathbb{E}_{\pi}\left[G_{t} \mid s_{t}=s, a_{t}=a\right] \tag{2.4}
|
||||
$$
|
||||
这里的期望其实也是基于策略函数的。所以我们需要对策略函数进行一个加和,然后得到它的价值。
|
||||
对 Q 函数中的动作进行加和,就可以得到价值函数:
|
||||
$$
|
||||
V_{\pi}(s)=\sum_{a \in A} \pi(a \mid s) Q_{\pi}(s, a)
|
||||
\tag{2.5}
|
||||
V_{\pi}(s)=\sum_{a \in A} \pi(a \mid s) Q_{\pi}(s, a)
|
||||
\tag{2.5}
|
||||
$$
|
||||
|
||||
此处我们对 Q 函数的贝尔曼方程进行推导:
|
||||
|
||||
Reference in New Issue
Block a user