From f9bd317a93899982ba3cd38eaf82d79caa4a7546 Mon Sep 17 00:00:00 2001 From: qiwang067 Date: Fri, 9 Oct 2020 20:16:48 +0800 Subject: [PATCH] fix ch11 typos --- docs/chapter11/chapter11.md | 10 +++++++--- 1 file changed, 7 insertions(+), 3 deletions(-) diff --git a/docs/chapter11/chapter11.md b/docs/chapter11/chapter11.md index 674ac1e..3204175 100644 --- a/docs/chapter11/chapter11.md +++ b/docs/chapter11/chapter11.md @@ -18,11 +18,15 @@ ![](img/11.3.png) -Behavior Cloning 虽然非常简单,但它的问题是如果你只收集 expert 的资料,你可能看过的 observation 会是非常 limited。 +Behavior Cloning 虽然非常简单,但它的问题是如果你只收集 expert 的资料,你可能看过的 observation 会是非常有限的。 -举例来说,假设你要 learn 一部自动驾驶汽车,自动驾驶汽车就是要过这个弯道。如果是 expert 的话,它就是把车顺着这个红线就开过去了。但假设你的 agent 很笨,它今天开着开着,就开到撞墙了,它永远不知道撞墙这种状况要怎么处理,为什么?因为 training data 里面从来没有撞过墙,所以它根本就不知道撞墙这一种 case 要怎么处理。 +举例来说, -或是打电玩,电玩也是一样,让人去玩 Mario,那 expert 可能非常强,它从来不会跳不上水管,所以机器根本不知道跳不上水管时要怎么处理。人从来不会跳不上水管,但是机器如果跳不上水管时,就不知道要怎么处理。所以光是做Behavior Cloning 是不够的。只观察 expert 的行为是不够的,需要一个招数,这个招数叫作`Dataset Aggregation`。 +* 假设你要 learn 一部自动驾驶汽车,自动驾驶汽车就是要过这个弯道。如果是 expert 的话,它就是把车顺着这个红线就开过去了。但假设你的 agent 很笨,它今天开着开着,就开到撞墙了,它永远不知道撞墙这种状况要怎么处理,为什么?因为 training data 里面从来没有撞过墙,所以它根本就不知道撞墙这一种 case 要怎么处理。 + +* 打电玩也是一样,让人去玩 Mario,那 expert 可能非常强,它从来不会跳不上水管,所以机器根本不知道跳不上水管时要怎么处理。 + +所以光是做 Behavior Cloning 是不够的,只观察 expert 的行为是不够的,需要一个招数,这个招数叫作`Dataset Aggregation`。 ![](img/11.4.png)