From 5c9b58880d4eb6cf3a6ecd4c59964bb030ba9265 Mon Sep 17 00:00:00 2001 From: qiwang067 Date: Fri, 23 Feb 2024 16:58:16 +0800 Subject: [PATCH] update typos --- docs/chapter10/chapter10.md | 2 +- docs/chapter10/chapter10_questions&keywords.md | 2 +- 2 files changed, 2 insertions(+), 2 deletions(-) diff --git a/docs/chapter10/chapter10.md b/docs/chapter10/chapter10.md index 154388f..21a8ba9 100644 --- a/docs/chapter10/chapter10.md +++ b/docs/chapter10/chapter10.md @@ -88,7 +88,7 @@ 接下来,我们把奖励特别极端的情况去掉。奖励特别极端的情况的意思是这些情况太简单或是太难了。如果奖励很大,就代表这个情况太简单了,就不用学习了,因为智能体已经会了,它可以得到很大的奖励。如果奖励太小,就代表这个情况太难了,依照智能体现在的能力它学不会,所以就不学这个,只学一些奖励适中的情况。 -接下来,再根据这些奖励适中的情况采样出更多的状态。假设一开始,机械臂在某个位置可以抓得到后。接下来,机械臂就再离远一点儿,看看能不能抓到;又能抓到后,再离远一点儿,看看能不能抓到。这是一个有用的方法,称为**逆课程学习(reverse curriculum learning)**。前面讲的是课程学习,就是我们要为智能体规划学习的顺序。而逆课程学习是从黄金状态反推,如图 10.8 所示,就是从目标反推,所以这称为逆课程学习。 +接下来,再根据这些奖励适中的情况采样出更多的状态。假设一开始,机械臂在某个位置可以抓得到后。接下来,机械臂就再离远一点儿,看看能不能抓到;又能抓到后,再离远一点儿,看看能不能抓到。这是一个有用的方法,称为**逆课程学习(reverse curriculum learning)**。前面讲的是课程学习,就是我们要为智能体规划学习的顺序。而逆课程学习是从目标状态反推,如图 10.8 所示,就是从目标反推,所以这称为逆课程学习。 diff --git a/docs/chapter10/chapter10_questions&keywords.md b/docs/chapter10/chapter10_questions&keywords.md index 14c4a84..12a2112 100644 --- a/docs/chapter10/chapter10_questions&keywords.md +++ b/docs/chapter10/chapter10_questions&keywords.md @@ -8,7 +8,7 @@ - **课程学习(curriculum learning)**:一种广义的用在强化学习中训练智能体的方法,其在输入训练数据的时候,采取由易到难的顺序进行输入,也可以人为设计它的学习过程。这个方法在机器学习和强化学习中普遍使用。 -- **逆课程学习(reverse curriculum learning)**:相较于课程学习,逆课程学习为更广义的方法。其从最终最理想的状态 [我们称之为黄金状态(gold state)] 开始,依次去寻找距离黄金状态最近的状态作为想让智能体达到的阶段性的“理想”状态。当然,我们会在此过程中有意地去掉一些极端的状态,即太简单、太难的状态。综上,逆课程学习是从黄金状态反推的方法。 +- **逆课程学习(reverse curriculum learning)**:相较于课程学习,逆课程学习为更广义的方法。其从最终最理想的状态 [我们称之为目标状态(goal state)] 开始,依次去寻找距离目标状态最近的状态作为想让智能体达到的阶段性的“理想”状态。当然,我们会在此过程中有意地去掉一些极端的状态,即太简单、太难的状态。综上,逆课程学习是从目标状态反推的方法。 - **分层强化学习(hierarchical reinforcement learning)**:将一个大型的任务,横向或者纵向地拆解成由多个智能体去执行的子任务。其中,有一些智能体负责比较高层次的任务,如负责定目标,定完目标后,再将目标分配给其他的智能体执行。