Update project1.md

This commit is contained in:
John Jim
2020-11-25 00:30:15 +08:00
committed by GitHub
parent 3858e8ee42
commit 0bb450747b

View File

@@ -93,7 +93,7 @@
## 备注
* 注意 $\varepsilon -greedy$ 策略的使用,以及相应的参数$\varepsilon$如何衰减
* 训练模型和测试模型的时候选择动作有一些不同,训练时采取e-greedy策略而测试时直接选取Q值最大对应的动作所以算法在动作选择的时候会包括sample(训练时的动作采样)和predict(测试时的动作选择)
* 注意 $\varepsilon$-greedy 策略的使用,以及相应的参数$\varepsilon$如何衰减
* 训练模型和测试模型的时候选择动作有一些不同,训练时采取 $\varepsilon$-greedy策略而测试时直接选取Q值最大对应的动作所以算法在动作选择的时候会包括sample(训练时的动作采样)和predict(测试时的动作选择)
* Q值最大对应的动作可能不止一个此时可以随机选择一个输出结果
* Q值最大对应的动作可能不止一个此时可以随机选择一个输出结果