Update project1.md

This commit is contained in:
johnjim0816
2022-01-13 19:28:27 +08:00
committed by GitHub
parent 30d920c091
commit e50d2bac2d

View File

@@ -1,6 +1,6 @@
# 使用Q-learning解决悬崖寻路问题
强化学习在运动规划方面也有很大的应用前景,具体包括路径规划与决策,群体派单等等,本次项目就将单体运动规划抽象并简化,让大家初步认识到强化学习在这方面的应用。在运动规划方面,其实已有很多适用于强化学习的仿真环境,小到迷宫,大到贴近真实的自动驾驶环境[CARLA](http://carla.org/)对这块感兴趣的童鞋可以再多搜集一点。本项目采用gym开发的```CliffWalking-v0```环境在上面实现一个简单的Q-learning入门demo。
强化学习在运动规划方面也有很大的应用前景,具体包括路径规划与决策,智能派单等等,本次项目就将单体运动规划抽象并简化,让大家初步认识到强化学习在这方面的应用。在运动规划方面,其实已有很多适用于强化学习的仿真环境,小到迷宫,大到贴近真实的自动驾驶环境[CARLA](http://carla.org/)对这块感兴趣的童鞋可以再多搜集一点。本项目采用gym开发的```CliffWalking-v0```环境在上面实现一个简单的Q-learning入门demo。
## CliffWalking-v0环境简介
@@ -83,4 +83,4 @@ for i_ep in range(cfg.train_eps): # train_eps: 训练的最大episodes数
* 注意 $\varepsilon$-greedy 策略的使用,以及相应的参数$\varepsilon$如何衰减
* 训练模型和测试模型的时候选择动作有一些不同,训练时采取 $\varepsilon$-greedy策略而测试时直接选取Q值最大对应的动作所以算法在动作选择的时候会包括sample(训练时的动作采样)和predict(测试时的动作选择)
* Q值最大对应的动作可能不止一个此时可以随机选择一个输出结果
* Q值最大对应的动作可能不止一个此时可以随机选择一个输出结果