update code links
This commit is contained in:
@@ -89,11 +89,11 @@
|
||||
|
||||
**plot.py**:保存相关绘制函数
|
||||
|
||||
[参考代码](https://github.com/datawhalechina/leedeeprl-notes/tree/master/codes/Q-learning)
|
||||
[参考代码](https://github.com/datawhalechina/easy-rl/tree/master/codes/QLearning)
|
||||
|
||||
## 备注
|
||||
|
||||
* 注意 $\varepsilon$-greedy 策略的使用,以及相应的参数$\varepsilon$如何衰减
|
||||
* 训练模型和测试模型的时候选择动作有一些不同,训练时采取 $\varepsilon$-greedy策略,而测试时直接选取Q值最大对应的动作,所以算法在动作选择的时候会包括sample(训练时的动作采样)和predict(测试时的动作选择)
|
||||
|
||||
* Q值最大对应的动作可能不止一个,此时可以随机选择一个输出结果
|
||||
* Q值最大对应的动作可能不止一个,此时可以随机选择一个输出结果
|
||||
Reference in New Issue
Block a user