Files
easy-rl/codes/README.md
JohnJim0816 b6c8ec4bea add env_info
2021-03-12 17:08:30 +08:00

3.1 KiB
Raw Blame History

写在前面

本项目用于学习RL基础算法尽量做到

  • 注释详细

  • 结构清晰

    代码结构清晰,主要分为以下几个脚本:

    • env.py 用于构建强化学习环境也可以重新normalize环境比如给action加noise
    • model.py 强化学习算法的基本模型比如神经网络actorcritic等
    • memory.py 保存Replay Buffer用于off-policy
    • agent.py RL核心算法比如dqn等主要包含update和select_action两个方法
    • main.py 运行主函数
    • params.py 保存各种参数
    • plot.py 利用matplotlib或seaborn绘制rewards图包括滑动平均的reward结果保存在result文件夹中

运行环境

python 3.7.9

pytorch 1.6.0

tensorboard 2.3.0

torchvision 0.7.0

gym 0.17.3

使用说明

本仓库使用到的环境信息请跳转环境说明, 在各算法目录下也有相应说明(比如如何运行程序等)

算法进度

算法名称 相关论文材料 备注 进度
On-Policy First-Visit MC OK
Q-Learning OK
SARSA OK
DQN DQN-paper OK
DQN-cnn DQN-paper 与DQN相比使用了CNN而不是全链接网络 OK
DoubleDQN OK
Hierarchical DQN Hierarchical DQN
PolicyGradient OK
A2C OK
DDPG DDPG Paper OK
TD3 Twin Dueling DDPG Paper

Refs

RL-Adventure-2

RL-Adventure