easy-rl

bacow/easy-rl

Fork 0

Files

T

History

JohnJim0816 11d9b14f00 add PPO

2021-03-23 16:05:16 +08:00

A2C

add A2C

2020-11-09 21:24:23 +08:00

assets

add env_info

2021-03-12 17:14:18 +08:00

common

update common

2021-03-15 17:17:16 +08:00

ddpg

update DDPG

2020-10-15 22:07:42 +08:00

DoubleDQN

update

2020-12-22 16:20:40 +08:00

DQN

add DQN

2021-03-15 17:16:36 +08:00

dqn_cnn

add some codes

2020-07-20 23:56:20 +08:00

MonteCarlo

update

2021-03-12 17:17:23 +08:00

PolicyGradient

update PolicyGradient

2020-11-27 18:34:11 +08:00

PPO

add PPO

2021-03-23 16:05:16 +08:00

QLearning

update Qlearning

2021-03-12 16:54:22 +08:00

Sarsa

update Sarsa

2021-03-12 17:19:04 +08:00

snake

update

2020-10-07 21:47:32 +08:00

env_info.md

add env_info

2021-03-12 17:14:18 +08:00

README.md

add PPO

2021-03-23 16:05:16 +08:00

README.md

Eng|中文

写在前面

本项目用于学习RL基础算法，尽量做到: 注释详细，结构清晰。

代码结构主要分为以下几个脚本：

model.py 强化学习算法的基本模型，比如神经网络，actor，critic等
memory.py 保存Replay Buffer，用于off-policy
plot.py 利用matplotlib或seaborn绘制rewards图，包括滑动平均的reward，结果保存在result文件夹中
env.py 用于构建强化学习环境，也可以重新自定义环境，比如给action加noise
agent.py RL核心算法，比如dqn等，主要包含update和choose_action两个方法，
main.py 运行主函数

其中model.py,memory.py,plot.py 由于不同算法都会用到，所以放入common文件夹中。

运行环境

python 3.7.9、pytorch 1.6.0、gym 0.18.0

使用说明

本repo使用到的环境说明，在各算法目录下也有README说明

算法进度

算法名称	相关论文材料	备注	进度
On-Policy First-Visit MC			OK
Q-Learning			OK
SARSA			OK
DQN	DQN-paper		OK
DQN-cnn	DQN-paper	与DQN相比使用了CNN而不是全链接网络	OK
DoubleDQN		效果不好，待改进	OK
Hierarchical DQN	Hierarchical DQN
PolicyGradient			OK
A2C			OK
PPO	PPO paper	PPO算法实战	OK
DDPG	DDPG Paper		OK
TD3	Twin Dueling DDPG Paper

Refs

RL-Adventure-2

RL-Adventure

https://www.cnblogs.com/lucifer1997/p/13458563.html

README.md Unescape Escape

写在前面

运行环境

使用说明

算法进度

Refs

README.md