From 614ed8980807d4a26711b16faf7d177284cdc264 Mon Sep 17 00:00:00 2001 From: johnjim0816 <39483938+johnjim0816@users.noreply.github.com> Date: Thu, 17 Nov 2022 23:19:22 +0800 Subject: [PATCH] =?UTF-8?q?=E6=9B=B4=E6=96=B0=E9=A1=B9=E7=9B=AE?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit --- docs/chapter12/project3.md | 15 --------------- docs/chapter3/project1.md | 14 -------------- docs/chapter7/project2.md | 14 -------------- 3 files changed, 43 deletions(-) diff --git a/docs/chapter12/project3.md b/docs/chapter12/project3.md index ef4f275..39f063e 100644 --- a/docs/chapter12/project3.md +++ b/docs/chapter12/project3.md @@ -77,19 +77,4 @@ for i_episode in range(1, cfg.max_episodes+1): # cfg.max_episodes为最大训练 2. 由于本次环境为惯性系统,建议增加Ornstein-Uhlenbeck噪声提高探索率,可参考[知乎文章](https://zhuanlan.zhihu.com/p/96720878) 3. 推荐多次试验保存rewards,然后使用searborn绘制,可参考[CSDN](https://blog.csdn.net/JohnJim0/article/details/106715402) -### 代码清单 - -**main.py**:保存强化学习基本接口,以及相应的超参数,可使用argparse - -**model.py**:保存神经网络,比如全链接网络 - -**ddpg.py**: 保存算法模型,主要包含select_action和update两个函数 - -**memory.py**:保存Replay Buffer - -**plot.py**:保存相关绘制函数 - -**noise.py**:保存噪声相关 - -[参考代码](https://github.com/datawhalechina/easy-rl/tree/master/codes/DDPG) diff --git a/docs/chapter3/project1.md b/docs/chapter3/project1.md index b9c1e5d..cf2e769 100644 --- a/docs/chapter3/project1.md +++ b/docs/chapter3/project1.md @@ -64,20 +64,6 @@ for i_ep in range(cfg.train_eps): # train_eps: 训练的最大episodes数 ![moving_average_rewards](assets/moving_average_rewards.png) -## 主要代码清单 - -**main.py** 或 **task_train.py**:保存强化学习基本接口,以及相应的超参数 - -**agent.py**: 保存算法模型,主要包含choose_action(预测动作)和update两个函数,有时会多一个predict_action函数,此时choose_action使用了epsilon-greedy策略便于训练的探索,而测试时用predict_action单纯贪心地选择网络的值输出动作 - -**model.py**:保存神经网络,比如全连接网络等等,对于一些算法,分为Actor和Critic两个类 - -**memory.py**:保存replay buffer,根据算法的不同,replay buffer功能有所不同,因此会改写 - -**plot.py**:保存相关绘制函数 - -[参考代码](https://github.com/datawhalechina/easy-rl/tree/master/projects/codes/QLearning) - ## 备注 * 注意 $\varepsilon$-greedy 策略的使用,以及相应的参数$\varepsilon$如何衰减 diff --git a/docs/chapter7/project2.md b/docs/chapter7/project2.md index 70f8347..e8add6e 100644 --- a/docs/chapter7/project2.md +++ b/docs/chapter7/project2.md @@ -73,17 +73,3 @@ for i_episode in range(1, cfg.max_episodes+1): # cfg.max_episodes为最大训练 也可以[tensorboard](https://pytorch.org/docs/stable/tensorboard.html)查看结果,如下: ![image-20201015221032985](assets/image-20201015221032985.png) - -### 代码清单 - -**main.py**:保存强化学习基本接口,以及相应的超参数,可使用argparse - -**model.py**:保存神经网络,比如全链接网络 - -**dqn.py**: 保存算法模型,主要包含select_action和update两个函数 - -**memory.py**:保存Replay Buffer - -**plot.py**:保存相关绘制函数,可选 - -[参考代码](https://github.com/datawhalechina/easy-rl/tree/master/codes/DQN) \ No newline at end of file