fix ch11 typos

This commit is contained in:
qiwang067
2020-10-09 20:16:48 +08:00
parent 59e74bd6d9
commit f9bd317a93

View File

@@ -18,11 +18,15 @@
![](img/11.3.png)
Behavior Cloning 虽然非常简单,但它的问题是如果你只收集 expert 的资料,你可能看过的 observation 会是非常 limited
Behavior Cloning 虽然非常简单,但它的问题是如果你只收集 expert 的资料,你可能看过的 observation 会是非常有限的
举例来说,假设你要 learn 一部自动驾驶汽车,自动驾驶汽车就是要过这个弯道。如果是 expert 的话,它就是把车顺着这个红线就开过去了。但假设你的 agent 很笨,它今天开着开着,就开到撞墙了,它永远不知道撞墙这种状况要怎么处理,为什么?因为 training data 里面从来没有撞过墙,所以它根本就不知道撞墙这一种 case 要怎么处理。
举例来说,
或是打电玩,电玩也是一样,让人去玩 Mario那 expert 可能非常强它从来不会跳不上水管所以机器根本不知道跳不上水管时要怎么处理。人从来不会跳不上水管但是机器如果跳不上水管时就不知道要怎么处理。所以光是做Behavior Cloning 是不够的。只观察 expert 的行为是不够的,需要一个招数,这个招数叫作`Dataset Aggregation`
* 假设你要 learn 一部自动驾驶汽车,自动驾驶汽车就是要过这个弯道。如果是 expert 的话,它就是把车顺着这个红线就开过去了。但假设你的 agent 很笨,它今天开着开着,就开到撞墙了,它永远不知道撞墙这种状况要怎么处理,为什么?因为 training data 里面从来没有撞过墙,所以它根本就不知道撞墙这一种 case 要怎么处理
* 打电玩也是一样,让人去玩 Mario那 expert 可能非常强,它从来不会跳不上水管,所以机器根本不知道跳不上水管时要怎么处理。
所以光是做 Behavior Cloning 是不够的,只观察 expert 的行为是不够的,需要一个招数,这个招数叫作`Dataset Aggregation`
![](img/11.4.png)