环境说明汇总

算法SAR一览

说明：SAR分别指状态(S)、动作(A)以及奖励(R)，下表的Reward Range表示每回合能获得的奖励范围，Steps表示环境中每回合的最大步数

Environment ID	Observation Space	Action Space	Reward Range	Steps
CartPole-v0	Box(4,)	Discrete(2)	[0,200]	200
CartPole-v1	Box(4,)	Discrete(2)	[0,500]	500
CliffWalking-v0	Discrete(48)	Discrete(4)	[-inf,-13]	[13,inf]
FrozenLake-v1(is_slippery=False)	Discrete(16)	Discrete(4)	0 or 1	[6,info]