This commit is contained in:
qiwang067
2022-09-14 09:37:35 +08:00
parent eb598955fd
commit e836fbd8a8
58 changed files with 13 additions and 25 deletions

View File

@@ -667,7 +667,6 @@ $$
这里再来看一下第二个步骤————策略改进,看我们是如何改进策略的。得到状态价值函数后,我们就可以通过奖励函数以及状态转移函数来计算 Q 函数:
$$
Q_{\pi_{i}}(s, a)=R(s, a)+\gamma \sum_{s^{\prime} \in S} p\left(s^{\prime} \mid s, a\right) V_{\pi_{i}}\left(s^{\prime}\right)
$$
对于每个状态,策略改进会得到它的新一轮的策略,对于每个状态,我们取使它得到最大值的动作,即