fix ch11

2021-09-21 17:12:50 +08:00
parent 27b7958964
commit f69e770aa5
1 changed files with 2 additions and 2 deletions
--- a/docs/chapter11/chapter11.md
+++ b/docs/chapter11/chapter11.md
@@ -17,11 +17,11 @@

 所以光是做行为克隆是不够的，只观察专家的行为是不够的，需要一个招数，这个招数叫作`数据集聚合（dataset aggregation，DAgger）`。

-![](img/11.3.png ':size=400')
+![](img/11.3.png ':size=300')

 我们会希望收集更多样性的数据，而不是只收集专家所看到的观测。我们会希望能够收集专家在各种极端的情况下，它会采取什么样的行为。如下图所示，以自动驾驶汽车为例的话，假设一开始，我们有演员 $\pi_1$，并且让 $\pi_1$去开这个车，但车上坐了一个专家。这个专家会不断地告诉机器说，如果在这个情境里面，我会怎么样开。所以 $\pi_1$ 自己开自己的，但是专家会不断地表示它的想法。比如说，一开始的时候，专家可能说往前走。在拐弯的时候，专家可能就会说往右转。但 $\pi_1$ 是不管专家的指令的，所以它会继续去撞墙。虽然专家说往右转，但是不管它怎么下指令都是没有用的，$\pi_1$ 会自己做自己的事情，因为我们要做的记录的是说，专家在 $\pi_1$ 看到这种观测的情况下，它会做什么样的反应。这个方法显然是有一些问题的，因为你每开一次自动驾驶汽车就会牺牲一个人。那你用这个方法，你牺牲一个专家以后，你就会知道，人类在这样子的状态下，在快要撞墙的时候，会采取什么样的行为。再把这个数据拿去训练新的 $\pi_2$。这个过程就反复继续下去，这个方法就叫做数据集聚合。

-![](img/11.4.png ':size=450')
+![](img/11.4.png ':size=300')

 行为克隆还有一个问题：机器会完全模仿专家的行为，不管专家的行为是否有道理，就算没有道理，没有什么用的，就算这是专家本身的习惯，机器也会硬把它记下来。如果机器确实可以记住所有专家的行为，也许还好。因为如果专家这么做，有些行为是多余的。但是没有问题，假设机器的行为可以完全仿造专家行为，也就算了，它就是跟专家一样得好，只是做一些多余的事。但问题是机器是一个网络，网络的容量是有限的。就算给网络训练数据，它在训练数据上得到的正确率往往也不是 100%，它有些事情是学不起来的。这个时候，什么该学，什么不该学就变得很重要。