diff --git a/docs/chapter12/project3.md b/docs/chapter12/project3.md index ad4c098..ef4f275 100644 --- a/docs/chapter12/project3.md +++ b/docs/chapter12/project3.md @@ -91,4 +91,5 @@ for i_episode in range(1, cfg.max_episodes+1): # cfg.max_episodes为最大训练 **noise.py**:保存噪声相关 -[参考代码](https://github.com/datawhalechina/leedeeprl-notes/tree/master/codes/ddpg) \ No newline at end of file +[参考代码](https://github.com/datawhalechina/easy-rl/tree/master/codes/DDPG) + diff --git a/docs/chapter3/project1.md b/docs/chapter3/project1.md index 1ef5eb8..2febe90 100644 --- a/docs/chapter3/project1.md +++ b/docs/chapter3/project1.md @@ -89,11 +89,11 @@ **plot.py**:保存相关绘制函数 -[参考代码](https://github.com/datawhalechina/leedeeprl-notes/tree/master/codes/Q-learning) +[参考代码](https://github.com/datawhalechina/easy-rl/tree/master/codes/QLearning) ## 备注 * 注意 $\varepsilon$-greedy 策略的使用,以及相应的参数$\varepsilon$如何衰减 * 训练模型和测试模型的时候选择动作有一些不同,训练时采取 $\varepsilon$-greedy策略,而测试时直接选取Q值最大对应的动作,所以算法在动作选择的时候会包括sample(训练时的动作采样)和predict(测试时的动作选择) -* Q值最大对应的动作可能不止一个,此时可以随机选择一个输出结果 +* Q值最大对应的动作可能不止一个,此时可以随机选择一个输出结果 \ No newline at end of file