update
This commit is contained in:
@@ -667,7 +667,6 @@ $$
|
||||
这里再来看一下第二个步骤————策略改进,看我们是如何改进策略的。得到状态价值函数后,我们就可以通过奖励函数以及状态转移函数来计算 Q 函数:
|
||||
$$
|
||||
Q_{\pi_{i}}(s, a)=R(s, a)+\gamma \sum_{s^{\prime} \in S} p\left(s^{\prime} \mid s, a\right) V_{\pi_{i}}\left(s^{\prime}\right)
|
||||
|
||||
$$
|
||||
|
||||
对于每个状态,策略改进会得到它的新一轮的策略,对于每个状态,我们取使它得到最大值的动作,即
|
||||
|
||||
Reference in New Issue
Block a user