Add files via upload
This commit is contained in:
@@ -24,46 +24,46 @@
|
||||
|
||||
#### 1. 前提
|
||||
|
||||
将一个无限水平贴现马尔科夫决策过程(MDP)定义为一个元组 $<S,A,P,c,\rho_{0},\gamma>$ ,$S$ 是有限状态集,$A$ 是有限动作集,$P:S\times A\times S \to R$ 是转移概率分布,$c:S\to R$ 是代价函数,$\rho_{0}:S\to R$ 是初始状态 $s_{0}$ 的分布,$\gamma \in(0,1)$ 是折扣因子。
|
||||
将一个无限水平贴现马尔科夫决策过程(MDP)定义为一个元组 $<S,A,P,c,\rho_{0},\gamma>$,$S$ 是有限状态集,$A$ 是有限动作集,$P:S\times A\times S \to R$ 是转移概率分布,$c:S\to R$ 是代价函数,$\rho_{0}:S\to R$ 是初始状态 $s_{0}$ 的分布,$\gamma \in(0,1)$ 是折扣因子。
|
||||
|
||||
令 $\pi$ 表示随机策略 $\pi:S\times A \to [0,1]$,令 $\eta(\pi)$ 表示期望折扣代价,则有:
|
||||
|
||||

|
||||

|
||||
|
||||
状态动作值函数 $Q_{\pi}$ ,值函数 $V_{\pi}$ ,优势函数 $A_{\pi}$ 标准定义如下:
|
||||
|
||||

|
||||

|
||||
|
||||
则随着时间步的累积,根据 $\pi\$ 的优势表达了另一个策略 $\tilde{\pi}$ 的期望代价如公式(1):
|
||||
|
||||

|
||||

|
||||
|
||||
令$\rho_{\pi}$为非归一化的折扣访问频率,则
|
||||
|
||||

|
||||

|
||||
|
||||
将公式(1)重新排列为对状态求和,则有公式(2):
|
||||
|
||||

|
||||

|
||||
|
||||
这个公式意味着对于任意策略更新 $\pi \to \tilde{\pi}$ 保证减少 $\eta$,或在期望优势处处为 $0$ 的情况下使其保持不变,$\tilde{\pi}$ 在每个状态 $s$ 都有一个非正的期望优势,即 $\sum_{a}\tilde{\pi}(a|s)A(\pi)(s,a)\le 0$。这意味着由精确策略迭代执行更新的经典结果。然而,在近似设置中,由于估计和近似误差,某些状态的预期优势为正通常是不可避免的,即 $\sum_{a}\tilde{\pi}(a|s)A(\pi)(s,a)\ge 0$。
|
||||
$\rho_{\tilde{\pi}}$ 对 $\tilde{\pi}$ 的复杂依赖使得公式(2)难以直接优化。于是本文引入下面对 $\eta$ 的局部逼近:
|
||||
|
||||

|
||||

|
||||
|
||||
然而,如果我们有一个参数化的策略 $\pi_{\theta}$ ,其中 $\pi_{\theta}(a|s)$ 是参数向量 $\theta$ 的可微函数,则 $L_{\pi}$ 对 $\eta$ 到一阶。那就是说,对于任意参数值 $\theta_{0}$,有
|
||||
|
||||

|
||||

|
||||
|
||||
公式(4)表明能改进 $L_{\pi_{old}}$ 的充分小一步更新 $\pi_{\theta_{0}}\to \tilde(\pi)$ 也能改进 $\eta$ ,但是我们无法知道这一步的大小如何。为解决该问题,Kakade & Langford (2002)提出一种保守策略迭代的策略更新方案,为 $\eta$ 的改进提供了明确的下界。
|
||||
|
||||
为定义保守策略迭代更新,令 $\pi_{old}$ 表示当前策略,假设可解 $\pi'=argmin_{\pi'}L_{\pi_{old}}(\pi')$ 。新策略 $\pi_{new}$ 取为混合策略,如公式(5):
|
||||
|
||||

|
||||

|
||||
|
||||
Kakade and Langford证明了这个更新的下述结果:
|
||||
|
||||

|
||||

|
||||
|
||||
$\epsilon$是$\pi'$相对于$\pi$的最大优势(或正或负),等式(6)给出了更简单的界。这个界当$\alpha \ll 1$时有点弱。这个界只适用于等式(5)生成的混合策略。混合策略不适用于实际情况,对于所有一般随机策略需要一个实际的策略更新方案。
|
||||
|
||||
@@ -71,21 +71,21 @@ $\epsilon$是$\pi'$相对于$\pi$的最大优势(或正或负),等式(6)给出
|
||||
|
||||
公式(6)意味着改进公式右边就能保证改进真实的期望代价目标 $\eta$。本文的主要理论结果是,通过用 $\pi$ 和 $\tilde{\pi}$ 之间的距离度量来替换 $\alpha$,公式(6)中的策略改进边界可以扩展到一般的随机策略,而不是仅适合于混合策略。这一结果对于将改进保证扩展到实际问题是至关重要的。对于离散概率分布 $p,q$ ,定义两个策略之间的总变分散度为:
|
||||
|
||||

|
||||

|
||||
|
||||
定理1.令 $\alpha=D^{max}_{TV}(\pi_{old},\pi_{new})$,令 $\epsilon=max_{s}\left | E_{a\sim\pi'(a|s)}[A_{\pi}(s,a)]\right |$,则公式(8)成立。证明在附录。
|
||||
|
||||
我们注意到变分散度和KL散度之间有这样的关系:$D_{TV}(p||q)^2 \le D_{KL}(p||q)$。令 $D^{max}_{KL}(\pi, \tilde{\pi}) = max_{s}D_{KL}(\pi(\cdot|s))$,可从公式(8)直接推导出下面的界,即公式(10):
|
||||
|
||||

|
||||

|
||||
|
||||

|
||||

|
||||
|
||||
算法1描述了基于公式(10)中策略改进边界的近似策略迭代方法。注意,我们假设了优势值$A_{\pi}$ 的精确评估。
|
||||
|
||||
由公式(10)可知,算法1保证生成一系列单调改进策略 $\eta(\pi_{0})\ge\eta(\pi_{1})\eta(\pi_{2})\ge ...$。令
|
||||
|
||||

|
||||

|
||||
|
||||
通过每次迭代中最小化 $M_{i}$,我们可以保证真正的目标 $\eta$ 是不增加的。这个算法是一种majorization-minimization(MM)算法,这是一类包括期望最大化的方法。在MM算法中,$M_{i}$ 是代理函数,优化 $\eta$ 等于 $\pi_{i}$ 。该算法也联想到近端梯度法和镜像下降法。下一节中提出的信任域策略优化是算法1的近似,算法1使用对KL发散的约束而不是惩罚来健壮的允许大的更新。
|
||||
|
||||
@@ -93,19 +93,19 @@ $\epsilon$是$\pi'$相对于$\pi$的最大优势(或正或负),等式(6)给出
|
||||
本节讲述了在有限样本数和任意参数化的基础上,如何从理论基础得出一个应用算法。
|
||||
因为我们用参数向量 $\theta$ 考虑了参数化策略 $\pi_{\theta}(a|s)$,因此我们用函数 $\theta$ 而不是 $\pi$ 重载以前的策略表示。优化目标为下式:
|
||||
|
||||

|
||||

|
||||
|
||||
如果采用上式的惩罚系数 $C$ ,步长会非常小,以稳健方式采取更大步骤的一种方法是对新旧策略之间的KL散度使用约束,即信任域约束,如公式(12):
|
||||
|
||||

|
||||

|
||||
|
||||
公式(12)强加了约束条件,即KL散度在状态空间的每个点上都是有界的。本文使用一种考虑平均KL散度的启发式近似:
|
||||
|
||||

|
||||

|
||||
|
||||
由此将生成策略更新的优化问题变为公式(13):
|
||||
|
||||

|
||||

|
||||
|
||||
类似的策略更新在以前的工作中已被提出,本文实验中也与以前的方法做了比较。实验表明,这种类型的约束更新与公式(12)中的最大KL散度约束具有相似的实验性能。
|
||||
|
||||
@@ -113,15 +113,15 @@ $\epsilon$是$\pi'$相对于$\pi$的最大优势(或正或负),等式(6)给出
|
||||
|
||||
本节描述了如何使用蒙特卡洛模拟逼近目标函数和约束函数。公式(13)通过扩展 $L_{\theta_{old}}$ 可有公式(14):
|
||||
|
||||

|
||||

|
||||
|
||||
用期望 $frac{1}{1-\gamma}E_{s\sim\rho_{old}}[...]$ 代替 $\sum_{s}\rho_{\theta_{old}}[...]$,用优势值 $A_{\theta_{old}}$ 代替Q值 $Q_{\theta_{old}}$。最后用一个重要性采样估计量代替动作的和,用 $q$ 表示采样分布,则单个 $s_{n}$ 对损失函数贡献为:
|
||||
|
||||

|
||||

|
||||
|
||||
则公式(14)中的优化问题完全等价于公式(15)中用期望表示的优化问题:
|
||||
|
||||

|
||||

|
||||
|
||||
剩下的就是用样本均值代替期望,用经验估计代替Q值。
|
||||
|
||||
@@ -143,17 +143,17 @@ $\epsilon$是$\pi'$相对于$\pi$的最大优势(或正或负),等式(6)给出
|
||||
|
||||
在小的有限动作空间中,我们可以从给定的状态为每一个可能的动作生成一个短轨迹(rollout)。从单个状态 $s_{n}$ 对 $L_{\theta_{old}}$ 的贡献如下:
|
||||
|
||||

|
||||

|
||||
|
||||
在大的或连续状态空间中,我们利用重要抽样来构造代理损失的估计量。单个状态 $s_{n}$ 的自归一化估计量为
|
||||
|
||||

|
||||

|
||||
|
||||
假设我们执行了来自状态 $s_{n}$ 的 $K$个动作 $a_{n,1}, a_{n,2},…, a_{n,K}$ 来自状态sn。这种自归一化估计器消除了对 $Q$ 值使用基线的需要(向q值添加一个常数,梯度不变)。对 $s_{N}\sim \rho(\pi)$ 求平均值,可以得到 $L_{\theta_{old}}$ 的估计量,以及它的梯度。
|
||||
|
||||
图1说明了vine方法和单路径方法。
|
||||
|
||||

|
||||

|
||||
|
||||
左图为单路径程序示意图。通过模拟策略生成一组轨迹,并将所有状态-动作对 $(s_{n}, a_{n})$ 合并到目标中。右图为vine方法示意图。生成一组“主干”轨迹,然后从到达状态的子集生成“分支”展开。对于每个状态 $s_{n}$,执行多个操作(这里是 $a_{1}$ 和 $a_{2}$),并在每个操作之后执行一次短轨迹,使用公共随机数(CRN)来减少方差。
|
||||
|
||||
@@ -188,13 +188,13 @@ vine方法中用于采样的轨迹可以被比作藤蔓的茎,它在不同的
|
||||
|
||||
自然策略梯度:做为公式(13)更新的特例,通过对 $L$ 线性近似,对 $\bar{D}_{KL}$ 约束使用二次逼近,从而得到下式:
|
||||
|
||||

|
||||

|
||||
|
||||
更新 $\theta _{new}=\theta _{old}-\lambda A(\theta _{old})^{-1} \nabla _{\theta }L(\theta )|_{\theta =\theta _{old}}$,其中拉格朗日乘子 $\lambda$ 为算法参数。该算法更新与本文的TRPO不同,TRPO每次更新强制执行约束。实验证明,本文算法提高了处理更大问题时的性能。
|
||||
|
||||
通过使用 $l_{2}$ 约束或惩罚,TRPO也获得了标准策略梯度更新:
|
||||
|
||||

|
||||

|
||||
|
||||
通过求解无约束问题 $minimize_{\pi}L_{\pi_{old}}(\pi)$ 也可得到迭代策略更新。
|
||||
|
||||
@@ -204,7 +204,7 @@ Levine and Abbeel (2014)使用KL发散约束,TRPO不显式估计系统动态
|
||||
|
||||
#### 7. 实验
|
||||
|
||||

|
||||

|
||||
|
||||
图2为运动实验的二维机器人模型:swimmer,hopper,walker。由于欠驱动及接触连续,hopper和walker比较难训练。
|
||||
|
||||
@@ -232,11 +232,11 @@ Levine and Abbeel (2014)使用KL发散约束,TRPO不显式估计系统动态
|
||||
|
||||
算法对模型评估的结果看图4。图3上图为机器人动作训练的网络,下图为玩Atari游戏的网络。本文用神经网络表示策略,参数见文章附录。
|
||||
|
||||

|
||||

|
||||
|
||||
图4为机器人训练的学习曲线,每个算法随机初始化的五次运行平均结果,hopper和walker 的前进速度是-1,说明只学到了站立平衡,没学会如何走路。
|
||||
|
||||

|
||||

|
||||
|
||||
比较的方法:单路径TRPO, vine TRPO, 奖励加权回归(RWR), 类EM的策略搜索方法,相对熵策略搜索(REPS), 交叉熵法(CEM),无梯度法,协方差矩阵自适应(CMA), 经典自然策略梯度算法(使用固定惩罚系数-拉格朗日乘子),经验FIM(使用梯度的协方差矩阵), max KL(只适用于cart-pole,使用最大KL散度)。
|
||||
|
||||
@@ -254,7 +254,7 @@ TRPO学习策略的视频链接:http://sites.google.com/ site/trpopaper/。
|
||||
|
||||
单路径法和vine法结果如表1,还包括一个人类玩家和Deep Q-Learning,蒙特卡洛树搜索与监督训练的组合。
|
||||
|
||||

|
||||

|
||||
|
||||
TRPO算法(底部行)在每个任务上运行一次,使用相同的架构和参数。性能在不同的运行之间有很大的差异(策略的随机初始化不同),但由于时间限制,作者无法获得错误统计数据。
|
||||
|
||||
|
||||
Reference in New Issue
Block a user