Merge branch 'master' of github.com:datawhalechina/easy-rl

2023-11-24 16:10:31 +08:00
parent c325345f81 5682246cb6
commit 82fde031fb
1 changed files with 1 additions and 1 deletions
--- a/docs/chapter10/chapter10.md
+++ b/docs/chapter10/chapter10.md
@@ -77,7 +77,7 @@
    


-有一个比较通用的方法：**逆向课程生成（reverse curriculum generation）**。我们可以用一个比较通用的方法来帮智能体设计课程。如图 10.7 所示，假设我们一开始有一个状态$s_\mathrm{g}$，这是**黄金状态（gold state）**，也就是最后最理想的结果。如果以板子和柱子的实验为例，黄金状态就是把板子穿过柱子。如果我们以训练机械臂抓东西为例，抓到东西就称为黄金状态。接下来我们根据黄金状态去找其他的状态，这些其他的状态与黄金状态是比较接近的。例如，在让机械臂抓东西的例子里面，机械臂可能还没有抓到东西。假设与黄金状态很接近的状态称为 $s_1$。机械臂还没有抓到东西，但它与黄金状态很接近，这种状态可称为$s_1$。至于什么是接近，这取决于具体情况。我们要根据任务来设计怎么从 $s_\mathrm{g}$ 采样出 $s_1$。接下来，智能体再从 $s_1$ 开始与环境交互，看它能不能够达到黄金状态$s_\mathrm{g}$，在每一个状态下，智能体与环境交互的时候，都会得到一个奖励。
+有一个比较通用的方法：**逆向课程生成（reverse curriculum generation）**。我们可以用一个比较通用的方法来帮智能体设计课程。如图 10.7 所示，假设我们一开始有一个状态$s_\mathrm{g}$，这是**目标状态（goal state）**，也就是最后最理想的结果。如果以板子和柱子的实验为例，目标状态就是把板子穿过柱子。如果我们以训练机械臂抓东西为例，抓到东西就称为目标状态。接下来我们根据目标状态去找其他的状态，这些其他的状态与目标状态是比较接近的。例如，在让机械臂抓东西的例子里面，机械臂可能还没有抓到东西。假设与目标状态很接近的状态称为 $s_1$。机械臂还没有抓到东西，但它与目标状态很接近，这种状态可称为$s_1$。至于什么是接近，这取决于具体情况。我们要根据任务来设计怎么从 $s_\mathrm{g}$ 采样出 $s_1$。接下来，智能体再从 $s_1$ 开始与环境交互，看它能不能够达到目标状态$s_\mathrm{g}$，在每一个状态下，智能体与环境交互的时候，都会得到一个奖励。


 <div align=center>