update code links

2021-05-16 20:08:24 +08:00
parent f574b6c3a1
commit 94808bf7e7
2 changed files with 4 additions and 3 deletions
--- a/docs/chapter12/project3.md
+++ b/docs/chapter12/project3.md
@@ -91,4 +91,5 @@ for i_episode in range(1, cfg.max_episodes+1): # cfg.max_episodes为最大训练

 **noise.py**：保存噪声相关

-[参考代码](https://github.com/datawhalechina/leedeeprl-notes/tree/master/codes/ddpg)
+[参考代码](https://github.com/datawhalechina/easy-rl/tree/master/codes/DDPG)
+
--- a/docs/chapter3/project1.md
+++ b/docs/chapter3/project1.md
@@ -89,11 +89,11 @@

 **plot.py**：保存相关绘制函数

-[参考代码](https://github.com/datawhalechina/leedeeprl-notes/tree/master/codes/Q-learning)
+[参考代码](https://github.com/datawhalechina/easy-rl/tree/master/codes/QLearning)

 ## 备注

 * 注意 $\varepsilon$-greedy 策略的使用，以及相应的参数$\varepsilon$如何衰减
 * 训练模型和测试模型的时候选择动作有一些不同，训练时采取 $\varepsilon$-greedy策略，而测试时直接选取Q值最大对应的动作，所以算法在动作选择的时候会包括sample(训练时的动作采样)和predict(测试时的动作选择)

-* Q值最大对应的动作可能不止一个，此时可以随机选择一个输出结果
+* Q值最大对应的动作可能不止一个，此时可以随机选择一个输出结果