JohnJim0816 bf0f2990cf update
2021-03-23 16:10:11 +08:00
2021-03-23 16:10:11 +08:00
2021-03-23 16:07:30 +08:00
2020-11-23 12:10:09 +08:00
2020-07-03 10:36:33 +08:00
2021-03-23 16:07:30 +08:00

Easy-RL

李宏毅老师的《深度强化学习》是强化学习领域经典的中文视频之一。李老师幽默风趣的上课风格让晦涩难懂的强化学习理论变得轻松易懂,他会通过很多有趣的例子来讲解强化学习理论。比如老师经常会用玩 Atari 游戏的例子来讲解强化学习算法。此外,为了教程的完整性,我们整理了周博磊老师的《强化学习纲要》、李科浇老师的《百度强化学习》以及多个强化学习的经典资料作为补充。对于想入门强化学习又想看中文讲解的人来说绝对是非常推荐的。

使用说明

在线阅读(内容实时更新)

地址:https://datawhalechina.github.io/easy-rl/

内容导航

章节 习题 项目
第一章 强化学习概述 第一章 习题
第二章 马尔可夫决策过程 (MDP) 第二章 习题
第三章 表格型方法 第三章 习题 项目一 使用 Q-learning 解决悬崖寻路问题
第四章 策略梯度 第四章 习题
第五章 近端策略优化 (PPO) 算法 第五章 习题
第六章 DQN (基本概念) 第六章 习题
第七章 DQN (进阶技巧) 第七章 习题 项目二 使用 DQN 实现 CartPole-v0
第八章 DQN (连续动作) 第八章 习题
第九章 演员-评论家算法 第九章 习题
第十章 稀疏奖励 第十章 习题
第十一章 模仿学习 第十一章 习题
第十二章 深度确定性策略梯度 (DDPG) 算法 第十二章 习题 项目三 使用 Policy-Based 方法实现 Pendulum-v0
第十三章 AlphaStar 论文解读

算法代码实现一览

算法名称 相关论文材料 备注 进度
On-Policy First-Visit MC 蒙特卡洛算法 OK
Q-Learning OK
Sarsa OK
DQN DQN-paper OK
DQN-cnn DQN-paper 与DQN相比使用了CNN而不是全链接网络 OK
DoubleDQN OK
Hierarchical DQN Hierarchical DQN
PolicyGradient OK
A2C OK
PPO PPO paper PPO算法实战 OK
DDPG DDPG Paper OK
TD3 Twin Dueling DDPG Paper

贡献者

pic
Qi Wang

教程设计(第1~12章)
中国科学院大学

pic
David Young

习题设计&第13章
清华大学

pic
John Jim

项目设计
北京大学

致谢

特别感谢 @Sm1les@LSGOMYP 对本项目的帮助与支持。

关注我们

Datawhale是一个专注AI领域的开源组织,以“for the learner,和学习者一起成长”为愿景,构建对学习者最有价值的开源学习社区。关注我们,一起学习成长。

LICENSE

知识共享许可协议
本作品采用知识共享署名-非商业性使用-相同方式共享 4.0 国际许可协议进行许可。

Description
No description provided
Readme 528 MiB
Languages
Jupyter Notebook 99.3%
Python 0.7%