easy-rl/projects/README.md at ffab9e3028baba86ee6c7c330d19b1f4327f42f0

bacow/easy-rl

Files

johnjim0816 ffab9e3028 update projects

2022-07-31 23:42:12 +08:00

0、写在前面

本项目用于学习RL基础算法，尽量做到: 注释详细(经过很长时间的纠结，还是中文注释好了！！！)，结构清晰。

代码结构主要分为以下几个脚本：

[algorithm_name].py：即保存算法的脚本，例如dqn.py，每种算法都会有一定的基础模块，例如Replay Buffer、MLP(多层感知机)等等；
task.py: 即保存任务的脚本，基本包括基于argparse模块的参数，训练以及测试函数等等；
utils.py：该脚本用于保存诸如存储结果以及画图的软件，在实际项目或研究中，推荐大家使用Tensorboard来保存结果，然后使用诸如matplotlib以及seabron来进一步画图。

python 3.7、pytorch 1.6.0-1.9.0、gym 0.21.0

或者在README.md目录下执行以下命令复现环境：

conda env create -f environment.yaml

直接运行带有train的py文件或ipynb文件会进行训练默认的任务；
也可以运行带有task的py文件训练不同的任务

算法名称	相关论文材料	环境	备注
On-Policy First-Visit MC	medium blog	Racetrack
Q-Learning	towardsdatascience blog,q learning paper	CliffWalking-v0
Sarsa	geeksforgeeks blog	Racetrack
DQN	DQN Paper,Nature DQN Paper	CartPole-v0
DQN-cnn	DQN Paper	CartPole-v0	与DQN相比使用了CNN而不是全链接网络
DoubleDQN	DoubleDQN Paper	CartPole-v0
Hierarchical DQN	H-DQN Paper	CartPole-v0
PolicyGradient	Lil'log	CartPole-v0
A2C	A3C Paper	CartPole-v0
SAC	SAC Paper	Pendulum-v0
PPO	PPO paper	CartPole-v0
DDPG	DDPG Paper	Pendulum-v0
TD3	TD3 Paper	HalfCheetah-v2