update typos

2024-02-23 16:58:16 +08:00
parent a877519952
commit 5c9b58880d
2 changed files with 2 additions and 2 deletions
--- a/docs/chapter10/chapter10.md
+++ b/docs/chapter10/chapter10.md
@@ -88,7 +88,7 @@

 接下来，我们把奖励特别极端的情况去掉。奖励特别极端的情况的意思是这些情况太简单或是太难了。如果奖励很大，就代表这个情况太简单了，就不用学习了，因为智能体已经会了，它可以得到很大的奖励。如果奖励太小，就代表这个情况太难了，依照智能体现在的能力它学不会，所以就不学这个，只学一些奖励适中的情况。

-接下来，再根据这些奖励适中的情况采样出更多的状态。假设一开始，机械臂在某个位置可以抓得到后。接下来，机械臂就再离远一点儿，看看能不能抓到；又能抓到后，再离远一点儿，看看能不能抓到。这是一个有用的方法，称为**逆课程学习（reverse curriculum learning）**。前面讲的是课程学习，就是我们要为智能体规划学习的顺序。而逆课程学习是从黄金状态反推，如图 10.8 所示，就是从目标反推，所以这称为逆课程学习。  
+接下来，再根据这些奖励适中的情况采样出更多的状态。假设一开始，机械臂在某个位置可以抓得到后。接下来，机械臂就再离远一点儿，看看能不能抓到；又能抓到后，再离远一点儿，看看能不能抓到。这是一个有用的方法，称为**逆课程学习（reverse curriculum learning）**。前面讲的是课程学习，就是我们要为智能体规划学习的顺序。而逆课程学习是从目标状态反推，如图 10.8 所示，就是从目标反推，所以这称为逆课程学习。