534 B
534 B
Sarsa
使用说明
运行main.py即可
环境说明
见环境说明中的The Racetrack
算法伪代码
其他说明
与Q-learning区别
算法上区别很小,只在更新公式上,但Q-learning是Off-policy,而Sarsa是On-policy,可参考知乎:强化学习中sarsa算法是不是比q-learning算法收敛速度更慢?
运行main.py即可
见环境说明中的The Racetrack
算法上区别很小,只在更新公式上,但Q-learning是Off-policy,而Sarsa是On-policy,可参考知乎:强化学习中sarsa算法是不是比q-learning算法收敛速度更慢?