19 lines
889 B
Markdown
19 lines
889 B
Markdown
# 环境说明汇总
|
||
|
||
## 算法SAR一览
|
||
|
||
说明:SAR分别指状态(S)、动作(A)以及奖励(R),下表的Reward Range表示每回合能获得的奖励范围,Steps表示环境中每回合的最大步数
|
||
|
||
| Environment ID | Observation Space | Action Space | Reward Range | Steps |
|
||
| :--------------------------------: | :---------------: | :----------: | :----------: | :------: |
|
||
| CartPole-v0 | Box(4,) | Discrete(2) | [0,200] | 200 |
|
||
| CartPole-v1 | Box(4,) | Discrete(2) | [0,500] | 500 |
|
||
| CliffWalking-v0 | Discrete(48) | Discrete(4) | [-inf,-13] | [13,inf] |
|
||
| FrozenLake-v1(*is_slippery*=False) | Discrete(16) | Discrete(4) | 0 or 1 | [6,info] |
|
||
|
||
## 环境描述
|
||
|
||
[OpenAI Gym](./gym_info.md)
|
||
[MuJoCo](./mujoco_info.md)
|
||
|