easy-rl/codes at 8d06642c5619c802cb7468c0d7e1d7ab1cfb56fc - easy-rl - Gitea: Git with a cup of tea

bacow/easy-rl

Files

History

JohnJim0816 8d06642c56 remove dqn

2021-03-15 17:15:42 +08:00

..

add A2C

2020-11-09 21:24:23 +08:00

add env_info

2021-03-12 17:14:18 +08:00

update

2021-03-13 11:51:51 +08:00

update DDPG

2020-10-15 22:07:42 +08:00

update

2020-12-22 16:20:40 +08:00

add some codes

2020-07-20 23:56:20 +08:00

update

2021-03-12 17:17:23 +08:00

update PolicyGradient

2020-11-27 18:34:11 +08:00

update Qlearning

2021-03-12 16:54:22 +08:00

update Sarsa

2021-03-12 17:19:04 +08:00

update

2020-10-07 21:47:32 +08:00

env_info.md

add env_info

2021-03-12 17:14:18 +08:00

README.md

add env_info

2021-03-12 17:08:30 +08:00

README.md

写在前面

本项目用于学习RL基础算法，尽量做到：

注释详细
结构清晰

代码结构清晰，主要分为以下几个脚本：
- env.py 用于构建强化学习环境，也可以重新normalize环境，比如给action加noise
- model.py 强化学习算法的基本模型，比如神经网络，actor，critic等
- memory.py 保存Replay Buffer，用于off-policy
- agent.py RL核心算法，比如dqn等，主要包含update和select_action两个方法，
- main.py 运行主函数
- params.py 保存各种参数
- plot.py 利用matplotlib或seaborn绘制rewards图，包括滑动平均的reward，结果保存在result文件夹中

运行环境

python 3.7.9

pytorch 1.6.0

tensorboard 2.3.0

torchvision 0.7.0

gym 0.17.3

使用说明

本仓库使用到的环境信息请跳转环境说明, 在各算法目录下也有相应说明(比如如何运行程序等)

算法进度

算法名称	相关论文材料	备注	进度
On-Policy First-Visit MC			OK
Q-Learning			OK
SARSA			OK
DQN	DQN-paper		OK
DQN-cnn	DQN-paper	与DQN相比使用了CNN而不是全链接网络	OK
DoubleDQN			OK
Hierarchical DQN	Hierarchical DQN
PolicyGradient			OK
A2C			OK
DDPG	DDPG Paper		OK
TD3	Twin Dueling DDPG Paper

Refs