From 4d3799efdf28e9ce73cf61dc28fc2e01567417d9 Mon Sep 17 00:00:00 2001
From: Junhui Tao <taojunhui10@163.com>
Date: Sun, 19 Nov 2023 16:37:27 +0800
Subject: [PATCH] =?UTF-8?q?Update=20chapter10.md=20=E4=BF=AE=E6=94=B9?=
 =?UTF-8?q?=E9=BB=84=E9=87=91=E7=8A=B6=E6=80=81=EF=BC=88gold=20state?=
 =?UTF-8?q?=EF=BC=89=E4=B8=BA=E7=9B=AE=E6=A0=87=E7=8A=B6=E6=80=81=EF=BC=88?=
 =?UTF-8?q?goal=20state=EF=BC=89?=
MIME-Version: 1.0
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: 8bit

在李宏毅稀疏奖励那一节课中，逆强化学习的那个最终目标，称为目标状态而不是黄金状态
---
 docs/chapter10/chapter10.md | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)
diff --git a/docs/chapter10/chapter10.md b/docs/chapter10/chapter10.md
index 4feacd5..154388f 100644
--- a/docs/chapter10/chapter10.md
+++ b/docs/chapter10/chapter10.md
@@ -77,7 +77,7 @@
     
 
 
-有一个比较通用的方法：**逆向课程生成（reverse curriculum generation）**。我们可以用一个比较通用的方法来帮智能体设计课程。如图 10.7 所示，假设我们一开始有一个状态$s_\mathrm{g}$，这是**黄金状态（gold state）**，也就是最后最理想的结果。如果以板子和柱子的实验为例，黄金状态就是把板子穿过柱子。如果我们以训练机械臂抓东西为例，抓到东西就称为黄金状态。接下来我们根据黄金状态去找其他的状态，这些其他的状态与黄金状态是比较接近的。例如，在让机械臂抓东西的例子里面，机械臂可能还没有抓到东西。假设与黄金状态很接近的状态称为 $s_1$。机械臂还没有抓到东西，但它与黄金状态很接近，这种状态可称为$s_1$。至于什么是接近，这取决于具体情况。我们要根据任务来设计怎么从 $s_\mathrm{g}$ 采样出 $s_1$。接下来，智能体再从 $s_1$ 开始与环境交互，看它能不能够达到黄金状态$s_\mathrm{g}$，在每一个状态下，智能体与环境交互的时候，都会得到一个奖励。
+有一个比较通用的方法：**逆向课程生成（reverse curriculum generation）**。我们可以用一个比较通用的方法来帮智能体设计课程。如图 10.7 所示，假设我们一开始有一个状态$s_\mathrm{g}$，这是**目标状态（goal state）**，也就是最后最理想的结果。如果以板子和柱子的实验为例，目标状态就是把板子穿过柱子。如果我们以训练机械臂抓东西为例，抓到东西就称为目标状态。接下来我们根据目标状态去找其他的状态，这些其他的状态与目标状态是比较接近的。例如，在让机械臂抓东西的例子里面，机械臂可能还没有抓到东西。假设与目标状态很接近的状态称为 $s_1$。机械臂还没有抓到东西，但它与目标状态很接近，这种状态可称为$s_1$。至于什么是接近，这取决于具体情况。我们要根据任务来设计怎么从 $s_\mathrm{g}$ 采样出 $s_1$。接下来，智能体再从 $s_1$ 开始与环境交互，看它能不能够达到目标状态$s_\mathrm{g}$，在每一个状态下，智能体与环境交互的时候，都会得到一个奖励。
 
 
 <div align=center>