Update project1.md
This commit is contained in:
@@ -1,6 +1,6 @@
|
||||
# 使用Q-learning解决悬崖寻路问题
|
||||
|
||||
强化学习在运动规划方面也有很大的应用前景,具体包括路径规划与决策,群体派单等等,本次项目就将单体运动规划抽象并简化,让大家初步认识到强化学习在这方面的应用。在运动规划方面,其实已有很多适用于强化学习的仿真环境,小到迷宫,大到贴近真实的自动驾驶环境[CARLA](http://carla.org/),对这块感兴趣的童鞋可以再多搜集一点。本项目采用gym开发的```CliffWalking-v0```环境,在上面实现一个简单的Q-learning入门demo。
|
||||
强化学习在运动规划方面也有很大的应用前景,具体包括路径规划与决策,智能派单等等,本次项目就将单体运动规划抽象并简化,让大家初步认识到强化学习在这方面的应用。在运动规划方面,其实已有很多适用于强化学习的仿真环境,小到迷宫,大到贴近真实的自动驾驶环境[CARLA](http://carla.org/),对这块感兴趣的童鞋可以再多搜集一点。本项目采用gym开发的```CliffWalking-v0```环境,在上面实现一个简单的Q-learning入门demo。
|
||||
|
||||
## CliffWalking-v0环境简介
|
||||
|
||||
@@ -83,4 +83,4 @@ for i_ep in range(cfg.train_eps): # train_eps: 训练的最大episodes数
|
||||
* 注意 $\varepsilon$-greedy 策略的使用,以及相应的参数$\varepsilon$如何衰减
|
||||
* 训练模型和测试模型的时候选择动作有一些不同,训练时采取 $\varepsilon$-greedy策略,而测试时直接选取Q值最大对应的动作,所以算法在动作选择的时候会包括sample(训练时的动作采样)和predict(测试时的动作选择)
|
||||
|
||||
* Q值最大对应的动作可能不止一个,此时可以随机选择一个输出结果
|
||||
* Q值最大对应的动作可能不止一个,此时可以随机选择一个输出结果
|
||||
|
||||
Reference in New Issue
Block a user