Add files via upload

2022-11-21 21:44:54 +08:00
parent ec28635307
commit e03c52ec6f
2 changed files with 132 additions and 69 deletions
--- a/papers/Policy_gradient/Trust
+++ b/papers/Policy_gradient/Trust
@@ -24,46 +24,46 @@

 #### 1.  前提

-将一个无限水平贴现马尔科夫决策过程(MDP)定义为一个元组 $<S,A,P,c,\rho_{0},\gamma>$ ，$S$ 是有限状态集，$A$ 是有限动作集，$P:S\times A\times S \to R$ 是转移概率分布，$c:S\to R$ 是代价函数，$\rho_{0}:S\to R$ 是初始状态 $s_{0}$ 的分布，$\gamma \in(0,1)$ 是折扣因子。
+将一个无限水平贴现马尔科夫决策过程(MDP)定义为一个元组 $<S,A,P,c,\rho_{0},\gamma>$，$S$ 是有限状态集，$A$ 是有限动作集，$P:S\times A\times S \to R$ 是转移概率分布，$c:S\to R$ 是代价函数，$\rho_{0}:S\to R$ 是初始状态 $s_{0}$ 的分布，$\gamma \in(0,1)$ 是折扣因子。

 令 $\pi$ 表示随机策略 $\pi:S\times A \to [0,1]$，令 $\eta(\pi)$ 表示期望折扣代价，则有：

-![在这里插入图片描述](img/TRPO-0.png#pic_center)
+![图片描述](img/TRPO-0.png)

 状态动作值函数 $Q_{\pi}$ ,值函数 $V_{\pi}$ ,优势函数 $A_{\pi}$ 标准定义如下：

-![在这里插入图片描述](img/TRPO--0.png#pic_center)
+![图片描述](img/TRPO--0.png)

 则随着时间步的累积，根据 $\pi\$ 的优势表达了另一个策略 $\tilde{\pi}$ 的期望代价如公式(1):

-![在这里插入图片描述](img/TRPO--1.png#pic_center)
+![图片描述](img/TRPO--1.png)

 令$\rho_{\pi}$为非归一化的折扣访问频率，则

-![在这里插入图片描述](img/TRPO-2.png#pic_center)
+![图片描述](img/TRPO-2.png)

 将公式(1)重新排列为对状态求和，则有公式(2):

-![在这里插入图片描述](img/TRPO--2.png#pic_center)
+![图片描述](img/TRPO--2.png)

 这个公式意味着对于任意策略更新 $\pi \to \tilde{\pi}$ 保证减少 $\eta$,或在期望优势处处为 $0$ 的情况下使其保持不变，$\tilde{\pi}$ 在每个状态 $s$ 都有一个非正的期望优势，即 $\sum_{a}\tilde{\pi}(a|s)A(\pi)(s,a)\le 0$。这意味着由精确策略迭代执行更新的经典结果。然而，在近似设置中，由于估计和近似误差，某些状态的预期优势为正通常是不可避免的，即 $\sum_{a}\tilde{\pi}(a|s)A(\pi)(s,a)\ge 0$。 
 $\rho_{\tilde{\pi}}$ 对 $\tilde{\pi}$ 的复杂依赖使得公式(2)难以直接优化。于是本文引入下面对 $\eta$ 的局部逼近：

-![在这里插入图片描述](img/TRPO--3.png#pic_center)
+![图片描述](img/TRPO--3.png)

 然而，如果我们有一个参数化的策略 $\pi_{\theta}$ ,其中 $\pi_{\theta}(a|s)$ 是参数向量 $\theta$ 的可微函数，则 $L_{\pi}$ 对 $\eta$ 到一阶。那就是说，对于任意参数值 $\theta_{0}$，有

-![在这里插入图片描述](img/trpo--4.png#pic_center)
+![图片描述](img/TRPO--4.png)

 公式(4)表明能改进 $L_{\pi_{old}}$ 的充分小一步更新 $\pi_{\theta_{0}}\to \tilde(\pi)$ 也能改进 $\eta$ ,但是我们无法知道这一步的大小如何。为解决该问题，Kakade & Langford (2002)提出一种保守策略迭代的策略更新方案，为 $\eta$ 的改进提供了明确的下界。

 为定义保守策略迭代更新，令 $\pi_{old}$ 表示当前策略，假设可解 $\pi'=argmin_{\pi'}L_{\pi_{old}}(\pi')$ 。新策略 $\pi_{new}$ 取为混合策略，如公式(5)：

-![在这里插入图片描述](img/trpo--5.png#pic_center)
+![图片描述](img/TRPO--5.png)

 Kakade and Langford证明了这个更新的下述结果：

-![在这里插入图片描述](img/TRPO--8.png#pic_center)
+![图片描述](img/TRPO--8.png)

 $\epsilon$是$\pi'$相对于$\pi$的最大优势(或正或负)，等式(6)给出了更简单的界。这个界当$\alpha \ll 1$时有点弱。这个界只适用于等式(5)生成的混合策略。混合策略不适用于实际情况，对于所有一般随机策略需要一个实际的策略更新方案。

@@ -71,21 +71,21 @@ $\epsilon$是$\pi'$相对于$\pi$的最大优势(或正或负)，等式(6)给出

 公式(6)意味着改进公式右边就能保证改进真实的期望代价目标 $\eta$。本文的主要理论结果是，通过用 $\pi$ 和 $\tilde{\pi}$ 之间的距离度量来替换 $\alpha$，公式(6)中的策略改进边界可以扩展到一般的随机策略，而不是仅适合于混合策略。这一结果对于将改进保证扩展到实际问题是至关重要的。对于离散概率分布 $p,q$ ，定义两个策略之间的总变分散度为：

-![在这里插入图片描述](img/TRPO--9.png#pic_center)
+![图片描述](img/TRPO--9.png)

 定理1.令 $\alpha=D^{max}_{TV}(\pi_{old},\pi_{new})$，令 $\epsilon=max_{s}\left |  E_{a\sim\pi'(a|s)}[A_{\pi}(s,a)]\right |$，则公式(8)成立。证明在附录。

 我们注意到变分散度和KL散度之间有这样的关系：$D_{TV}(p||q)^2 \le D_{KL}(p||q)$。令 $D^{max}_{KL}(\pi, \tilde{\pi}) = max_{s}D_{KL}(\pi(\cdot|s))$，可从公式(8)直接推导出下面的界，即公式(10):

-![在这里插入图片描述](img/TRPO--10.png#pic_center)
+![图片描述](img/TRPO--10.png)

-![在这里插入图片描述](img/TRPO-11.png#pic_center)
+![图片描述](img/TRPO-11.png)

 算法1描述了基于公式(10)中策略改进边界的近似策略迭代方法。注意，我们假设了优势值$A_{\pi}$ 的精确评估。

 由公式(10)可知，算法1保证生成一系列单调改进策略 $\eta(\pi_{0})\ge\eta(\pi_{1})\eta(\pi_{2})\ge ...$。令

-![在这里插入图片描述](img/TRPO--11.png#pic_center)
+![图片描述](img/TRPO--11.png)

 通过每次迭代中最小化 $M_{i}$，我们可以保证真正的目标 $\eta$ 是不增加的。这个算法是一种majorization-minimization(MM)算法，这是一类包括期望最大化的方法。在MM算法中，$M_{i}$ 是代理函数，优化 $\eta$ 等于 $\pi_{i}$ 。该算法也联想到近端梯度法和镜像下降法。下一节中提出的信任域策略优化是算法1的近似，算法1使用对KL发散的约束而不是惩罚来健壮的允许大的更新。

@@ -93,19 +93,19 @@ $\epsilon$是$\pi'$相对于$\pi$的最大优势(或正或负)，等式(6)给出
 本节讲述了在有限样本数和任意参数化的基础上，如何从理论基础得出一个应用算法。
 因为我们用参数向量 $\theta$ 考虑了参数化策略 $\pi_{\theta}(a|s)$，因此我们用函数 $\theta$ 而不是 $\pi$ 重载以前的策略表示。优化目标为下式：

-![在这里插入图片描述](img/TRPO-13.png#pic_center)
+![图片描述](img/TRPO-13.png)

 如果采用上式的惩罚系数 $C$ ，步长会非常小，以稳健方式采取更大步骤的一种方法是对新旧策略之间的KL散度使用约束，即信任域约束，如公式(12):

-![在这里插入图片描述](img/TRPO--12.png#pic_center)
+![图片描述](img/TRPO--12.png)

 公式(12)强加了约束条件，即KL散度在状态空间的每个点上都是有界的。本文使用一种考虑平均KL散度的启发式近似：

-![在这里插入图片描述](img/TRPO-12.png#pic_center)
+![图片描述](img/TRPO-12.png)

 由此将生成策略更新的优化问题变为公式(13):

-![在这里插入图片描述](img/TRPO--13.png#pic_center)
+![图片描述](img/TRPO--13.png)

 类似的策略更新在以前的工作中已被提出，本文实验中也与以前的方法做了比较。实验表明，这种类型的约束更新与公式(12)中的最大KL散度约束具有相似的实验性能。

@@ -113,15 +113,15 @@ $\epsilon$是$\pi'$相对于$\pi$的最大优势(或正或负)，等式(6)给出

 本节描述了如何使用蒙特卡洛模拟逼近目标函数和约束函数。公式(13)通过扩展 $L_{\theta_{old}}$ 可有公式(14):

-![在这里插入图片描述](img/TRPO-14.png#pic_center)
+![图片描述](img/TRPO-14.png)

 用期望 $frac{1}{1-\gamma}E_{s\sim\rho_{old}}[...]$ 代替 $\sum_{s}\rho_{\theta_{old}}[...]$，用优势值 $A_{\theta_{old}}$ 代替Q值 $Q_{\theta_{old}}$。最后用一个重要性采样估计量代替动作的和，用 $q$ 表示采样分布，则单个 $s_{n}$ 对损失函数贡献为：

-![在这里插入图片描述](img/TRPO-14.png#pic_center)
+![图片描述](img/TRPO-14.png)

 则公式(14)中的优化问题完全等价于公式(15)中用期望表示的优化问题：

-![在这里插入图片描述](img/TRPO--15.png#pic_center)
+![图片描述](img/TRPO--15.png)

 剩下的就是用样本均值代替期望，用经验估计代替Q值。

@@ -143,17 +143,17 @@ $\epsilon$是$\pi'$相对于$\pi$的最大优势(或正或负)，等式(6)给出

 在小的有限动作空间中，我们可以从给定的状态为每一个可能的动作生成一个短轨迹(rollout)。从单个状态 $s_{n}$ 对 $L_{\theta_{old}}$ 的贡献如下:

-![在这里插入图片描述](img/TRPO--16.png#pic_center)
+![图片描述](img/TRPO--16.png)

 在大的或连续状态空间中，我们利用重要抽样来构造代理损失的估计量。单个状态 $s_{n}$ 的自归一化估计量为

-![在这里插入图片描述](img/TRPO--17.png#pic_center)
+![图片描述](img/TRPO--17.png)

 假设我们执行了来自状态 $s_{n}$ 的 $K$个动作 $a_{n,1}, a_{n,2}，…， a_{n,K}$ 来自状态sn。这种自归一化估计器消除了对 $Q$ 值使用基线的需要(向q值添加一个常数，梯度不变)。对 $s_{N}\sim \rho(\pi)$ 求平均值，可以得到 $L_{\theta_{old}}$ 的估计量，以及它的梯度。

 图1说明了vine方法和单路径方法。

-![在这里插入图片描述](img/TRPO-1.png#pic_center)
+![图片描述](img/TRPO-1.png)

 左图为单路径程序示意图。通过模拟策略生成一组轨迹，并将所有状态-动作对 $(s_{n}, a_{n})$ 合并到目标中。右图为vine方法示意图。生成一组“主干”轨迹，然后从到达状态的子集生成“分支”展开。对于每个状态 $s_{n}$，执行多个操作(这里是 $a_{1}$ 和 $a_{2}$)，并在每个操作之后执行一次短轨迹，使用公共随机数(CRN)来减少方差。

@@ -188,13 +188,13 @@ vine方法中用于采样的轨迹可以被比作藤蔓的茎，它在不同的

 自然策略梯度：做为公式(13)更新的特例，通过对 $L$ 线性近似，对 $\bar{D}_{KL}$ 约束使用二次逼近，从而得到下式：

-![在这里插入图片描述](img/TRPO--18.png#pic_center)
+![图片描述](img/TRPO--18.png)

 更新 $\theta _{new}=\theta _{old}-\lambda A(\theta _{old})^{-1} \nabla _{\theta }L(\theta )|_{\theta =\theta _{old}}$，其中拉格朗日乘子 $\lambda$ 为算法参数。该算法更新与本文的TRPO不同，TRPO每次更新强制执行约束。实验证明，本文算法提高了处理更大问题时的性能。

 通过使用 $l_{2}$ 约束或惩罚，TRPO也获得了标准策略梯度更新：

-![在这里插入图片描述](img/TRPO-19.png#pic_center)
+![图片描述](img/TRPO-19.png)

 通过求解无约束问题 $minimize_{\pi}L_{\pi_{old}}(\pi)$ 也可得到迭代策略更新。

@@ -204,7 +204,7 @@ Levine and Abbeel (2014)使用KL发散约束，TRPO不显式估计系统动态

 #### 7. 实验

-![在这里插入图片描述](img/TRPO-3.png#pic_center)
+![图片描述](img/TRPO-3.png)

 图2为运动实验的二维机器人模型：swimmer，hopper，walker。由于欠驱动及接触连续，hopper和walker比较难训练。

@@ -232,11 +232,11 @@ Levine and Abbeel (2014)使用KL发散约束，TRPO不显式估计系统动态

 算法对模型评估的结果看图4。图3上图为机器人动作训练的网络，下图为玩Atari游戏的网络。本文用神经网络表示策略，参数见文章附录。

-![在这里插入图片描述](img/TRPO-4.png#pic_center)
+![图片描述](img/TRPO-4.png)

 图4为机器人训练的学习曲线，每个算法随机初始化的五次运行平均结果，hopper和walker 的前进速度是-1，说明只学到了站立平衡，没学会如何走路。

-![在这里插入图片描述](img/TRPO-5.png#pic_center)
+![图片描述](img/TRPO-5.png)

 比较的方法：单路径TRPO, vine TRPO, 奖励加权回归(RWR), 类EM的策略搜索方法，相对熵策略搜索(REPS), 交叉熵法(CEM)，无梯度法，协方差矩阵自适应(CMA), 经典自然策略梯度算法(使用固定惩罚系数-拉格朗日乘子)，经验FIM(使用梯度的协方差矩阵), max KL(只适用于cart-pole，使用最大KL散度)。

@@ -254,7 +254,7 @@ TRPO学习策略的视频链接:http://sites.google.com/ site/trpopaper/。

 单路径法和vine法结果如表1，还包括一个人类玩家和Deep Q-Learning,蒙特卡洛树搜索与监督训练的组合。

-![在这里插入图片描述](img/TRPO-6.png#pic_center)
+![图片描述](img/TRPO-6.png)

 TRPO算法(底部行)在每个任务上运行一次，使用相同的架构和参数。性能在不同的运行之间有很大的差异(策略的随机初始化不同)，但由于时间限制，作者无法获得错误统计数据。