Files
easy-rl/codes
JohnJim0816 5d8bf4802a update
2021-03-23 17:05:29 +08:00
..
2021-03-23 16:10:11 +08:00
2021-03-23 16:10:11 +08:00
2021-03-23 17:05:29 +08:00
2021-03-23 16:10:11 +08:00
2021-03-23 16:10:11 +08:00
2021-03-23 16:10:11 +08:00
2021-03-23 17:05:29 +08:00
2021-03-23 17:05:29 +08:00
2021-03-23 17:05:29 +08:00
2021-03-23 16:05:16 +08:00
2021-03-23 17:05:29 +08:00
2021-03-23 16:10:11 +08:00
2021-03-23 16:10:11 +08:00
2021-03-23 16:10:11 +08:00
2021-03-23 16:10:11 +08:00
2021-03-23 16:05:16 +08:00

Eng|中文

写在前面

本项目用于学习RL基础算法尽量做到: 注释详细结构清晰

代码结构主要分为以下几个脚本:

  • model.py 强化学习算法的基本模型比如神经网络actorcritic等
  • memory.py 保存Replay Buffer用于off-policy
  • plot.py 利用matplotlib或seaborn绘制rewards图包括滑动平均的reward结果保存在result文件夹中
  • env.py 用于构建强化学习环境也可以重新自定义环境比如给action加noise
  • agent.py RL核心算法比如dqn等主要包含update和choose_action两个方法
  • main.py 运行主函数

其中model.py,memory.py,plot.py 由于不同算法都会用到,所以放入common文件夹中。

运行环境

python 3.7.9、pytorch 1.6.0、gym 0.18.0

使用说明

本repo使用到的环境说明在各算法目录下也有README说明

算法进度

算法名称 相关论文材料 备注 进度
On-Policy First-Visit MC OK
Q-Learning OK
SARSA OK
DQN DQN-paper OK
DQN-cnn DQN-paper 与DQN相比使用了CNN而不是全链接网络 OK
DoubleDQN 效果不好,待改进 OK
Hierarchical DQN Hierarchical DQN
PolicyGradient OK
A2C OK
PPO PPO paper PPO算法实战 OK
DDPG DDPG Paper OK
TD3 Twin Dueling DDPG Paper

Refs

RL-Adventure-2

RL-Adventure

https://www.cnblogs.com/lucifer1997/p/13458563.html