From 4d3799efdf28e9ce73cf61dc28fc2e01567417d9 Mon Sep 17 00:00:00 2001 From: Junhui Tao Date: Sun, 19 Nov 2023 16:37:27 +0800 Subject: [PATCH] =?UTF-8?q?Update=20chapter10.md=20=E4=BF=AE=E6=94=B9?= =?UTF-8?q?=E9=BB=84=E9=87=91=E7=8A=B6=E6=80=81=EF=BC=88gold=20state?= =?UTF-8?q?=EF=BC=89=E4=B8=BA=E7=9B=AE=E6=A0=87=E7=8A=B6=E6=80=81=EF=BC=88?= =?UTF-8?q?goal=20state=EF=BC=89?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit 在李宏毅稀疏奖励那一节课中,逆强化学习的那个最终目标,称为目标状态而不是黄金状态 --- docs/chapter10/chapter10.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/docs/chapter10/chapter10.md b/docs/chapter10/chapter10.md index 4feacd5..154388f 100644 --- a/docs/chapter10/chapter10.md +++ b/docs/chapter10/chapter10.md @@ -77,7 +77,7 @@ -有一个比较通用的方法:**逆向课程生成(reverse curriculum generation)**。我们可以用一个比较通用的方法来帮智能体设计课程。如图 10.7 所示,假设我们一开始有一个状态$s_\mathrm{g}$,这是**黄金状态(gold state)**,也就是最后最理想的结果。如果以板子和柱子的实验为例,黄金状态就是把板子穿过柱子。如果我们以训练机械臂抓东西为例,抓到东西就称为黄金状态。接下来我们根据黄金状态去找其他的状态,这些其他的状态与黄金状态是比较接近的。例如,在让机械臂抓东西的例子里面,机械臂可能还没有抓到东西。假设与黄金状态很接近的状态称为 $s_1$。机械臂还没有抓到东西,但它与黄金状态很接近,这种状态可称为$s_1$。至于什么是接近,这取决于具体情况。我们要根据任务来设计怎么从 $s_\mathrm{g}$ 采样出 $s_1$。接下来,智能体再从 $s_1$ 开始与环境交互,看它能不能够达到黄金状态$s_\mathrm{g}$,在每一个状态下,智能体与环境交互的时候,都会得到一个奖励。 +有一个比较通用的方法:**逆向课程生成(reverse curriculum generation)**。我们可以用一个比较通用的方法来帮智能体设计课程。如图 10.7 所示,假设我们一开始有一个状态$s_\mathrm{g}$,这是**目标状态(goal state)**,也就是最后最理想的结果。如果以板子和柱子的实验为例,目标状态就是把板子穿过柱子。如果我们以训练机械臂抓东西为例,抓到东西就称为目标状态。接下来我们根据目标状态去找其他的状态,这些其他的状态与目标状态是比较接近的。例如,在让机械臂抓东西的例子里面,机械臂可能还没有抓到东西。假设与目标状态很接近的状态称为 $s_1$。机械臂还没有抓到东西,但它与目标状态很接近,这种状态可称为$s_1$。至于什么是接近,这取决于具体情况。我们要根据任务来设计怎么从 $s_\mathrm{g}$ 采样出 $s_1$。接下来,智能体再从 $s_1$ 开始与环境交互,看它能不能够达到目标状态$s_\mathrm{g}$,在每一个状态下,智能体与环境交互的时候,都会得到一个奖励。