update typos
This commit is contained in:
@@ -88,7 +88,7 @@
|
||||
|
||||
接下来,我们把奖励特别极端的情况去掉。奖励特别极端的情况的意思是这些情况太简单或是太难了。如果奖励很大,就代表这个情况太简单了,就不用学习了,因为智能体已经会了,它可以得到很大的奖励。如果奖励太小,就代表这个情况太难了,依照智能体现在的能力它学不会,所以就不学这个,只学一些奖励适中的情况。
|
||||
|
||||
接下来,再根据这些奖励适中的情况采样出更多的状态。假设一开始,机械臂在某个位置可以抓得到后。接下来,机械臂就再离远一点儿,看看能不能抓到;又能抓到后,再离远一点儿,看看能不能抓到。这是一个有用的方法,称为**逆课程学习(reverse curriculum learning)**。前面讲的是课程学习,就是我们要为智能体规划学习的顺序。而逆课程学习是从黄金状态反推,如图 10.8 所示,就是从目标反推,所以这称为逆课程学习。
|
||||
接下来,再根据这些奖励适中的情况采样出更多的状态。假设一开始,机械臂在某个位置可以抓得到后。接下来,机械臂就再离远一点儿,看看能不能抓到;又能抓到后,再离远一点儿,看看能不能抓到。这是一个有用的方法,称为**逆课程学习(reverse curriculum learning)**。前面讲的是课程学习,就是我们要为智能体规划学习的顺序。而逆课程学习是从目标状态反推,如图 10.8 所示,就是从目标反推,所以这称为逆课程学习。
|
||||
|
||||
|
||||
|
||||
|
||||
Reference in New Issue
Block a user