This website requires JavaScript.
Explore
Help
Register
Sign In
bacow
/
easy-rl
Watch
1
Star
0
Fork
0
You've already forked easy-rl
Code
Issues
Pull Requests
Actions
Packages
Projects
Releases
Wiki
Activity
Files
5659776d4b9c12a8f8cd9e04812b0fed10d55c2e
easy-rl
/
docs
/
_sidebar.md
qiwang067
5659776d4b
update sidebar
2020-08-07 22:17:05 +08:00
628 B
Executable File
Raw
Blame
History
目录
P1 强化学习概述
P2 马尔可夫决策过程 (MDP)
P3 表格型方法
P4 策略梯度
P5 近端策略优化 (PPO) 算法
P6 Q 学习 (基本概念)
P7 Q 学习 (进阶技巧)
P8 Q 学习 (连续动作)
P9 演员-评论员算法
P10 稀疏奖励
P11 模仿学习
P12 深度确定性策略梯度 (DDPG) 算法
Reference in New Issue
View Git Blame
Copy Permalink