diff --git a/docs/chapter8/chapter8_questions&keywords.md b/docs/chapter8/chapter8_questions&keywords.md index 73355b7..9645c9c 100644 --- a/docs/chapter8/chapter8_questions&keywords.md +++ b/docs/chapter8/chapter8_questions&keywords.md @@ -1,6 +1,6 @@ # Chapter8 Q-learning for Continuous Actions -## 思考题 +## Questions - Q-learning相比于policy gradient based方法为什么训练起来效果更好,更平稳? @@ -17,4 +17,4 @@ - 第一个解决方法:我们可以使用所谓的sample方法,即随机sample出N个可能的action,然后一个一个带到我们的Q-function中,计算对应的N个Q value比较哪一个的值最大。但是这个方法因为是sample所以不会非常的精确。 - 第二个解决方法:我们将这个continuous action问题,看为一个优化问题,从而自然而然地想到了可以用gradient ascend去最大化我们的目标函数。具体地,我们将action看为我们的变量,使用gradient ascend方法去update action对应的Q-value。但是这个方法通常的时间花销比较大,因为是需要迭代运算的。 - 第三个解决方法:设计一个特别的network架构,设计一个特别的Q-function,使得解我们 argmax Q-value的问题变得非常容易。也就是这边的 Q-function 不是一个 general 的 Q-function,特别设计一下它的样子,让你要找让这个 Q-function 最大的 a 的时候非常容易。但是这个方法的function不能随意乱设,其必须有一些额外的限制。具体的设计方法,可以我们的chapter8的详细教程。 - - 第四个解决方法:不用Q-learning,毕竟用其处理continuous的action比较麻烦。 \ No newline at end of file + - 第四个解决方法:不用Q-learning,毕竟用其处理continuous的action比较麻烦。