Files
easy-rl/projects/README.md
2022-07-31 23:42:12 +08:00

4.5 KiB
Raw Blame History

0、写在前面

本项目用于学习RL基础算法尽量做到: 注释详细(经过很长时间的纠结,还是中文注释好了!!!)结构清晰

代码结构主要分为以下几个脚本:

  • [algorithm_name].py:即保存算法的脚本,例如dqn.py,每种算法都会有一定的基础模块,例如Replay BufferMLP(多层感知机)等等;
  • task.py: 即保存任务的脚本,基本包括基于argparse模块的参数,训练以及测试函数等等;
  • utils.py:该脚本用于保存诸如存储结果以及画图的软件,在实际项目或研究中,推荐大家使用Tensorboard来保存结果,然后使用诸如matplotlib以及seabron来进一步画图。

运行环境

python 3.7、pytorch 1.6.0-1.9.0、gym 0.21.0

或者在README.md目录下执行以下命令复现环境:

conda env create -f environment.yaml

使用说明

直接运行带有train的py文件或ipynb文件会进行训练默认的任务
也可以运行带有task的py文件训练不同的任务

内容导航

算法名称 相关论文材料 环境 备注
On-Policy First-Visit MC medium blog Racetrack
Q-Learning towardsdatascience blog,q learning paper CliffWalking-v0
Sarsa geeksforgeeks blog Racetrack
DQN DQN Paper,Nature DQN Paper CartPole-v0
DQN-cnn DQN Paper CartPole-v0 与DQN相比使用了CNN而不是全链接网络
DoubleDQN DoubleDQN Paper CartPole-v0
Hierarchical DQN H-DQN Paper CartPole-v0
PolicyGradient Lil'log CartPole-v0
A2C A3C Paper CartPole-v0
SAC SAC Paper Pendulum-v0
PPO PPO paper CartPole-v0
DDPG DDPG Paper Pendulum-v0
TD3 TD3 Paper HalfCheetah-v2

Refs

RL-Adventure-2

RL-Adventure

Google 开源项目风格指南——中文版