This website requires JavaScript.
Explore
Help
Register
Sign In
bacow
/
easy-rl
Watch
1
Star
0
Fork
0
You've already forked easy-rl
Code
Issues
Pull Requests
Actions
Packages
Projects
Releases
Wiki
Activity
Files
81d6159f9d934d4e85ed5671d092dc4cd35c323e
easy-rl
/
docs
/
_sidebar.md
qiwang067
81d6159f9d
update sidebar and readme
2020-09-08 14:12:01 +08:00
1.3 KiB
Executable File
Raw
Blame
History
目录
第一章 强化学习概述
第一章习题
第二章 马尔可夫决策过程 (MDP)
第二章习题
第三章 表格型方法
第三章习题
第四章 策略梯度
第四章习题
第五章 近端策略优化 (PPO) 算法
第五章习题
第六章 Q 学习 (基本概念)
第六章习题
第七章 Q 学习 (进阶技巧)
第七章习题
项目二 使用 DQN 实现 CartPole-v0
第八章 Q 学习 (连续动作)
第八章习题
第九章 演员-评论员算法
第十章 稀疏奖励
第十一章 模仿学习
第十二章 深度确定性策略梯度 (DDPG) 算法
项目三 使用 Policy-Based 方法实现 Pendulum-v0
Reference in New Issue
View Git Blame
Copy Permalink