Update chapter11_questions&keywords.md

This commit is contained in:
David Young
2020-09-11 12:06:39 +08:00
committed by GitHub
parent 7276ad3b41
commit 5bb347df83

View File

@@ -1,6 +1,6 @@
## Chapter11 Imitation Learning # Chapter11 Imitation Learning
#### 1 关键词 ## 1 关键词
- **Imitation learning** 其讨论我们没有reward或者无法定义reward但是有与environment进行交互时怎么进行agent的学习。这与我们平时处理的问题中的情况有些类似因为通常我们无法从环境中得到明确的reward。Imitation learning 又被称为 learning from demonstration (示范学习) apprenticeship learning (学徒学习)learning by watching (观察学习)等。 - **Imitation learning** 其讨论我们没有reward或者无法定义reward但是有与environment进行交互时怎么进行agent的学习。这与我们平时处理的问题中的情况有些类似因为通常我们无法从环境中得到明确的reward。Imitation learning 又被称为 learning from demonstration (示范学习) apprenticeship learning (学徒学习)learning by watching (观察学习)等。
- **Behavior Cloning** 类似于ML中的监督学习通过收集expert的state与action的对应信息训练我们的networkactor。在使用时input state时得到对应的outpur action。 - **Behavior Cloning** 类似于ML中的监督学习通过收集expert的state与action的对应信息训练我们的networkactor。在使用时input state时得到对应的outpur action。
@@ -8,7 +8,7 @@
- **Inverse Reinforcement learningIRL** Inverse Reinforcement Learning 是先找出 reward function再去用 Reinforcement Learning 找出 optimal actor。这么做是因为我们没有环境中reward但是我们有expert 的demonstration使用IRL我们可以推断expert 是因为什么样的 reward function 才会采取这些action。有了reward function 以后,接下来,就可以套用一般的 reinforcement learning 的方法去找出 optimal actor。 - **Inverse Reinforcement learningIRL** Inverse Reinforcement Learning 是先找出 reward function再去用 Reinforcement Learning 找出 optimal actor。这么做是因为我们没有环境中reward但是我们有expert 的demonstration使用IRL我们可以推断expert 是因为什么样的 reward function 才会采取这些action。有了reward function 以后,接下来,就可以套用一般的 reinforcement learning 的方法去找出 optimal actor。
- **Third Person Imitation Learning** 一种把第三人称视角所观察到的经验 generalize 到第一人称视角的经验的技术。 - **Third Person Imitation Learning** 一种把第三人称视角所观察到的经验 generalize 到第一人称视角的经验的技术。
#### 2 思考题 ## 2 思考题
- 对于Imitation Learning 的方法有哪些? - 对于Imitation Learning 的方法有哪些?
@@ -33,4 +33,4 @@
* 生成的图就是 expert 的 demonstrationgenerator 就是actorgenerator 会生成很多的图并让actor 与环境进行互动,从而产生很多 trajectory。这些 trajectory 跟环境互动的记录等价于 GAN 里面的生成图。 * 生成的图就是 expert 的 demonstrationgenerator 就是actorgenerator 会生成很多的图并让actor 与环境进行互动,从而产生很多 trajectory。这些 trajectory 跟环境互动的记录等价于 GAN 里面的生成图。
* 在IRL中 learn 的 reward function 就是 discriminator。Rewards function 要给 expert 的 demonstration 高分,给 actor 互动的结果低分。 * 在IRL中 learn 的 reward function 就是 discriminator。Rewards function 要给 expert 的 demonstration 高分,给 actor 互动的结果低分。
* 考虑两者的过程在IRL中actor 会想办法,从这个已经 learn 出来的 reward function 里面得到高分,然后 iterative 地去循环这其实是与 GAN 的过程是一致的。 * 考虑两者的过程在IRL中actor 会想办法,从这个已经 learn 出来的 reward function 里面得到高分,然后 iterative 地去循环这其实是与 GAN 的过程是一致的。