Update project1.md

2022-01-13 19:28:27 +08:00
parent 30d920c091
commit e50d2bac2d
1 changed files with 2 additions and 2 deletions
--- a/docs/chapter3/project1.md
+++ b/docs/chapter3/project1.md
@@ -1,6 +1,6 @@
 # 使用Q-learning解决悬崖寻路问题

-强化学习在运动规划方面也有很大的应用前景，具体包括路径规划与决策，群体派单等等，本次项目就将单体运动规划抽象并简化，让大家初步认识到强化学习在这方面的应用。在运动规划方面，其实已有很多适用于强化学习的仿真环境，小到迷宫，大到贴近真实的自动驾驶环境[CARLA](http://carla.org/)，对这块感兴趣的童鞋可以再多搜集一点。本项目采用gym开发的```CliffWalking-v0```环境，在上面实现一个简单的Q-learning入门demo。
+强化学习在运动规划方面也有很大的应用前景，具体包括路径规划与决策，智能派单等等，本次项目就将单体运动规划抽象并简化，让大家初步认识到强化学习在这方面的应用。在运动规划方面，其实已有很多适用于强化学习的仿真环境，小到迷宫，大到贴近真实的自动驾驶环境[CARLA](http://carla.org/)，对这块感兴趣的童鞋可以再多搜集一点。本项目采用gym开发的```CliffWalking-v0```环境，在上面实现一个简单的Q-learning入门demo。

 ## CliffWalking-v0环境简介

@@ -83,4 +83,4 @@ for i_ep in range(cfg.train_eps): # train_eps: 训练的最大episodes数
 * 注意 $\varepsilon$-greedy 策略的使用，以及相应的参数$\varepsilon$如何衰减
 * 训练模型和测试模型的时候选择动作有一些不同，训练时采取 $\varepsilon$-greedy策略，而测试时直接选取Q值最大对应的动作，所以算法在动作选择的时候会包括sample(训练时的动作采样)和predict(测试时的动作选择)

-* Q值最大对应的动作可能不止一个，此时可以随机选择一个输出结果
+* Q值最大对应的动作可能不止一个，此时可以随机选择一个输出结果