diff --git a/docs/chapter3/project1.md b/docs/chapter3/project1.md index aabdcd5..50e648e 100644 --- a/docs/chapter3/project1.md +++ b/docs/chapter3/project1.md @@ -1,6 +1,6 @@ # 使用Q-learning解决悬崖寻路问题 -强化学习在运动规划方面也有很大的应用前景,具体包括路径规划与决策,群体派单等等,本次项目就将单体运动规划抽象并简化,让大家初步认识到强化学习在这方面的应用。在运动规划方面,其实已有很多适用于强化学习的仿真环境,小到迷宫,大到贴近真实的自动驾驶环境[CARLA](http://carla.org/),对这块感兴趣的童鞋可以再多搜集一点。本项目采用gym开发的```CliffWalking-v0```环境,在上面实现一个简单的Q-learning入门demo。 +强化学习在运动规划方面也有很大的应用前景,具体包括路径规划与决策,智能派单等等,本次项目就将单体运动规划抽象并简化,让大家初步认识到强化学习在这方面的应用。在运动规划方面,其实已有很多适用于强化学习的仿真环境,小到迷宫,大到贴近真实的自动驾驶环境[CARLA](http://carla.org/),对这块感兴趣的童鞋可以再多搜集一点。本项目采用gym开发的```CliffWalking-v0```环境,在上面实现一个简单的Q-learning入门demo。 ## CliffWalking-v0环境简介 @@ -83,4 +83,4 @@ for i_ep in range(cfg.train_eps): # train_eps: 训练的最大episodes数 * 注意 $\varepsilon$-greedy 策略的使用,以及相应的参数$\varepsilon$如何衰减 * 训练模型和测试模型的时候选择动作有一些不同,训练时采取 $\varepsilon$-greedy策略,而测试时直接选取Q值最大对应的动作,所以算法在动作选择的时候会包括sample(训练时的动作采样)和predict(测试时的动作选择) -* Q值最大对应的动作可能不止一个,此时可以随机选择一个输出结果 \ No newline at end of file +* Q值最大对应的动作可能不止一个,此时可以随机选择一个输出结果