Merge branch 'master' of github.com:datawhalechina/easy-rl
This commit is contained in:
@@ -77,7 +77,7 @@
|
||||
|
||||
|
||||
|
||||
有一个比较通用的方法:**逆向课程生成(reverse curriculum generation)**。我们可以用一个比较通用的方法来帮智能体设计课程。如图 10.7 所示,假设我们一开始有一个状态$s_\mathrm{g}$,这是**黄金状态(gold state)**,也就是最后最理想的结果。如果以板子和柱子的实验为例,黄金状态就是把板子穿过柱子。如果我们以训练机械臂抓东西为例,抓到东西就称为黄金状态。接下来我们根据黄金状态去找其他的状态,这些其他的状态与黄金状态是比较接近的。例如,在让机械臂抓东西的例子里面,机械臂可能还没有抓到东西。假设与黄金状态很接近的状态称为 $s_1$。机械臂还没有抓到东西,但它与黄金状态很接近,这种状态可称为$s_1$。至于什么是接近,这取决于具体情况。我们要根据任务来设计怎么从 $s_\mathrm{g}$ 采样出 $s_1$。接下来,智能体再从 $s_1$ 开始与环境交互,看它能不能够达到黄金状态$s_\mathrm{g}$,在每一个状态下,智能体与环境交互的时候,都会得到一个奖励。
|
||||
有一个比较通用的方法:**逆向课程生成(reverse curriculum generation)**。我们可以用一个比较通用的方法来帮智能体设计课程。如图 10.7 所示,假设我们一开始有一个状态$s_\mathrm{g}$,这是**目标状态(goal state)**,也就是最后最理想的结果。如果以板子和柱子的实验为例,目标状态就是把板子穿过柱子。如果我们以训练机械臂抓东西为例,抓到东西就称为目标状态。接下来我们根据目标状态去找其他的状态,这些其他的状态与目标状态是比较接近的。例如,在让机械臂抓东西的例子里面,机械臂可能还没有抓到东西。假设与目标状态很接近的状态称为 $s_1$。机械臂还没有抓到东西,但它与目标状态很接近,这种状态可称为$s_1$。至于什么是接近,这取决于具体情况。我们要根据任务来设计怎么从 $s_\mathrm{g}$ 采样出 $s_1$。接下来,智能体再从 $s_1$ 开始与环境交互,看它能不能够达到目标状态$s_\mathrm{g}$,在每一个状态下,智能体与环境交互的时候,都会得到一个奖励。
|
||||
|
||||
|
||||
<div align=center>
|
||||
|
||||
Reference in New Issue
Block a user