easy-rl

bacow/easy-rl

Fork 0

Files

T

History

johnjim0816 1e60b688fc update Q-learning

2021-09-20 15:33:12 +08:00

A2C

update

2021-05-04 15:30:01 +08:00

assets

update

2021-03-23 16:10:11 +08:00

common

update Q-learning

2021-09-20 15:33:12 +08:00

DDPG

update

2021-09-16 15:35:40 +08:00

Docs

update

2021-09-16 15:35:40 +08:00

DoubleDQN

update

2021-09-15 10:32:52 +08:00

DQN

update

2021-09-16 15:35:40 +08:00

envs

update

2021-05-03 23:00:01 +08:00

HierarchicalDQN

update

2021-05-07 16:31:25 +08:00

MonteCarlo

update

2021-09-15 10:32:52 +08:00

PolicyGradient

update

2021-05-07 16:31:25 +08:00

PPO

update

2021-09-15 10:32:52 +08:00

QLearning

update Q-learning

2021-09-20 15:33:12 +08:00

SAC

update

2021-05-07 16:31:25 +08:00

Sarsa

update

2021-09-15 10:32:52 +08:00

TD3

update

2021-04-28 22:11:22 +08:00

LICENSE

update

2021-03-23 16:10:11 +08:00

README.md

update

2021-09-15 10:32:52 +08:00

README.md

Eng|中文

写在前面

本项目用于学习RL基础算法，尽量做到: 注释详细，结构清晰。

代码结构主要分为以下几个脚本：

model.py 强化学习算法的基本模型，比如神经网络，actor，critic等
memory.py 保存Replay Buffer，用于off-policy
plot.py 利用matplotlib或seaborn绘制rewards图，包括滑动平均的reward，结果保存在result文件夹中
env.py 用于构建强化学习环境，也可以重新自定义环境，比如给action加noise
agent.py RL核心算法，比如dqn等，主要包含update和choose_action两个方法，
main.py 运行主函数

其中model.py,memory.py,plot.py 由于不同算法都会用到，所以放入common文件夹中。

运行环境

python 3.7、pytorch 1.6.0-1.7.1、gym 0.17.0-0.19.0

使用说明

运行带有train的py文件或ipynb文件进行训练，如果前面带有task如task0_train.py，表示对task0任务训练，类似的带有eval即为测试。

算法进度

算法名称	相关论文材料	环境	备注
On-Policy First-Visit MC	medium blog	Racetrack
Q-Learning	towardsdatascience blog,q learning paper	CliffWalking-v0
Sarsa	geeksforgeeks blog	Racetrack
DQN	DQN Paper,Nature DQN Paper	CartPole-v0
DQN-cnn	DQN Paper	CartPole-v0	与DQN相比使用了CNN而不是全链接网络
DoubleDQN	DoubleDQN Paper	CartPole-v0
Hierarchical DQN	H-DQN Paper	CartPole-v0
PolicyGradient	Lil'log	CartPole-v0
A2C	A3C Paper	CartPole-v0
SAC	SAC Paper	Pendulum-v0
PPO	PPO paper	CartPole-v0
DDPG	DDPG Paper	Pendulum-v0
TD3	TD3 Paper	HalfCheetah-v2

Refs

RL-Adventure-2

RL-Adventure

README.md Unescape Escape

写在前面

运行环境

使用说明

算法进度

Refs

README.md