Files
easy-rl/codes/Sarsa
2022-05-31 01:20:58 +08:00
..
2021-03-12 17:19:04 +08:00
2021-03-12 17:19:04 +08:00
2022-05-31 01:20:58 +08:00
2022-05-31 01:20:58 +08:00

Sarsa

使用说明

运行main.py即可

环境说明

环境说明中的The Racetrack

算法伪代码

sarsa_algo

其他说明

与Q-learning区别

算法上区别很小只在更新公式上但Q-learning是Off-policy而Sarsa是On-policy可参考知乎强化学习中sarsa算法是不是比q-learning算法收敛速度更慢