update

2022-09-14 09:37:35 +08:00
parent eb598955fd
commit e836fbd8a8
58 changed files with 13 additions and 25 deletions
--- a/docs/chapter2/chapter2.md
+++ b/docs/chapter2/chapter2.md
@@ -667,7 +667,6 @@ $$
 这里再来看一下第二个步骤————策略改进，看我们是如何改进策略的。得到状态价值函数后，我们就可以通过奖励函数以及状态转移函数来计算 Q 函数：
 $$
  Q_{\pi_{i}}(s, a)=R(s, a)+\gamma \sum_{s^{\prime} \in S} p\left(s^{\prime} \mid s, a\right) V_{\pi_{i}}\left(s^{\prime}\right)
-  
 $$

 对于每个状态，策略改进会得到它的新一轮的策略，对于每个状态，我们取使它得到最大值的动作，即