initialize repository

This commit is contained in:
qiwang067
2020-07-03 10:24:42 +08:00
parent 9b25d0a1a1
commit ed244a426d
11 changed files with 37 additions and 24 deletions

View File

@@ -1,4 +1,3 @@
[toc]
# Imitation Learning
![](img/8.1.png)
Imitation learning 讨论的问题是,假设我们连 reward 都没有那要怎么办呢Imitation learning 又叫做 `learning by demonstration` 或者叫做 `apprenticeship learning`。在 Imitation learning 里面,你有一些 expert 的 demonstration那 machine 也可以跟环境互动,但它没有办法从环境里面得到任何的 reward它只能看着 expert 的 demonstration 来学习什么是好什么是不好。其实多数的情况我们都没有办法真的从环境里面得到非常明确的reward。举例来说如果是棋类游戏或者是电玩你有非常明确的 reward。但是其实多数的任务都是没有 reward 的。以 chat-bot 为例,机器跟人聊天,聊得怎么样算是好,聊得怎么样算是不好,你无法给出明确的 reward。所以很多 task 是根本就没有办法给出 reward 的。