From dd1e2dd66ff85056653ac2b052db36f6f9b3e696 Mon Sep 17 00:00:00 2001 From: qiwang067 Date: Fri, 17 Jun 2022 00:30:05 +0800 Subject: [PATCH] update errata --- codes/DQN/README.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/codes/DQN/README.md b/codes/DQN/README.md index 33e7397..a5c0e2d 100644 --- a/codes/DQN/README.md +++ b/codes/DQN/README.md @@ -2,7 +2,7 @@ ## 原理简介 -DQN是Q-leanning算法的优化和延伸,Q-leaning中使用有限的Q表存储值的信息,而DQN中则用神经网络替代Q表存储信息,这样更适用于高维的情况,相关知识基础可参考[datawhale李宏毅笔记-Q学习](https://datawhalechina.github.io/easy-rl/#/chapter6/chapter6)。 +DQN是Q-learning算法的优化和延伸,Q-learning中使用有限的Q表存储值的信息,而DQN中则用神经网络替代Q表存储信息,这样更适用于高维的情况,相关知识基础可参考[EasyRL-DQN](https://datawhalechina.github.io/easy-rl/#/chapter6/chapter6)。 论文方面主要可以参考两篇,一篇就是2013年谷歌DeepMind团队的[Playing Atari with Deep Reinforcement Learning](https://www.cs.toronto.edu/~vmnih/docs/dqn.pdf),一篇是也是他们团队后来在Nature杂志上发表的[Human-level control through deep reinforcement learning](https://web.stanford.edu/class/psych209/Readings/MnihEtAlHassibis15NatureControlDeepRL.pdf)。后者在算法层面增加target q-net,也可以叫做Nature DQN。