From a6694c07693e58f3dcb484d2967e589a0dc00b10 Mon Sep 17 00:00:00 2001 From: Yiyuan Yang Date: Tue, 20 Sep 2022 02:04:31 +0800 Subject: [PATCH] Update chapter13.md --- docs/chapter13/chapter13.md | 6 ++++++ 1 file changed, 6 insertions(+) diff --git a/docs/chapter13/chapter13.md b/docs/chapter13/chapter13.md index 3f718f5..72a6610 100644 --- a/docs/chapter13/chapter13.md +++ b/docs/chapter13/chapter13.md @@ -126,10 +126,13 @@ $$ $$ 即当前动作的预期奖励减去当前状态的预期奖励。在 AlphaStar 中,向上移动的策略更新(upgoing policy update,UPGO)也得到了应用,向上移动的策略更新使用一个迭代变量 $G_t$ 来取代原来的动作的预期奖励 $r(s_t,a_t)+V(s_{t+1})$ ,即把未来乐观的信息纳入额外奖励中,上式可改写为: + $$ A(s_t,a_t)=G_t-V(s_t) $$ + 其中, + $$ G_t= \begin{cases} @@ -139,16 +142,19 @@ $$ $$ (2)基于上面计算得到的动作,更新策略梯度,即 $\nabla_{\theta}J = A(s_t,a_t)\nabla_{\theta}\mathrm{log} \pi_{\theta}(a_t|s_t)$。我们在前面介绍了,如果基于 $\pi_{\theta}$ 的分布不好求解,或者说学习策略 $\pi_{\theta}$ 与采集策略 $\pi_{\mu}$ 不同,我们需要使用重要性采样,即 $\nabla_{\theta}J = E_{\pi_{\mu}}\frac{\pi_{\theta} (a_t|s_t)}{\pi_{\mu} (a_t|s_t)} A_{\pi_{\theta}}(s_t,a_t)\nabla_{\theta}\mathrm{log} \pi_{\theta}(a_t|s_t)$。当然我们还需防止 $\frac{\pi_{\theta} (a_t|s_t)}{\pi_{\mu} (a_t|s_t)}$ 出现无穷大的情况,我们需要使用V-trace限制重要性系数。这也是用于免策略的一个更新方法,在 IMPALA 论文中的4.1节有所体现。即将重要性系数的最大值限制为1,公式如下: + $$ \nabla_{\theta}J = E_{\pi_{\mu}}\rho_t A_{\pi_{\theta}}(s_t,a_t)\nabla_{\theta}\mathrm{log} \pi_{\theta}(a_t|s_t) $$ 其中, + $$ \rho_t = \mathrm{min}(\frac{\pi_{\theta} (a_t|s_t)}{\pi_{\mu} (a_t|s_t)},1) $$ (3)利用时序差分($\lambda$)来优化价值网络,并同时输入对手的数据。对于我们的价值函数 + $$ V_{\pi_{\theta}}(s_t)=E_{\pi_{\theta}}\sum_{t'=t}\gamma^{t'-t}r(s_t,a_t)=E_{a_t\sim\pi_{\theta}(\cdot|s_t)}[r(s_t,a_t)+\gamma V(s_{t+1})] $$