Files
easy-rl/codes
JohnJim0816 8d06642c56 remove dqn
2021-03-15 17:15:42 +08:00
..
2020-11-09 21:24:23 +08:00
2021-03-12 17:14:18 +08:00
2021-03-13 11:51:51 +08:00
2020-10-15 22:07:42 +08:00
2020-12-22 16:20:40 +08:00
2020-07-20 23:56:20 +08:00
2021-03-12 17:17:23 +08:00
2020-11-27 18:34:11 +08:00
2021-03-12 16:54:22 +08:00
2021-03-12 17:19:04 +08:00
2020-10-07 21:47:32 +08:00
2021-03-12 17:14:18 +08:00
2021-03-12 17:08:30 +08:00

写在前面

本项目用于学习RL基础算法尽量做到

  • 注释详细

  • 结构清晰

    代码结构清晰,主要分为以下几个脚本:

    • env.py 用于构建强化学习环境也可以重新normalize环境比如给action加noise
    • model.py 强化学习算法的基本模型比如神经网络actorcritic等
    • memory.py 保存Replay Buffer用于off-policy
    • agent.py RL核心算法比如dqn等主要包含update和select_action两个方法
    • main.py 运行主函数
    • params.py 保存各种参数
    • plot.py 利用matplotlib或seaborn绘制rewards图包括滑动平均的reward结果保存在result文件夹中

运行环境

python 3.7.9

pytorch 1.6.0

tensorboard 2.3.0

torchvision 0.7.0

gym 0.17.3

使用说明

本仓库使用到的环境信息请跳转环境说明, 在各算法目录下也有相应说明(比如如何运行程序等)

算法进度

算法名称 相关论文材料 备注 进度
On-Policy First-Visit MC OK
Q-Learning OK
SARSA OK
DQN DQN-paper OK
DQN-cnn DQN-paper 与DQN相比使用了CNN而不是全链接网络 OK
DoubleDQN OK
Hierarchical DQN Hierarchical DQN
PolicyGradient OK
A2C OK
DDPG DDPG Paper OK
TD3 Twin Dueling DDPG Paper

Refs

RL-Adventure-2

RL-Adventure