# 环境说明汇总

## 算法SAR一览

说明：SAR分别指状态(S)、动作(A)以及奖励(R)，下表的Reward Range表示每回合能获得的奖励范围，Steps表示环境中每回合的最大步数

|           Environment ID           | Observation Space | Action Space | Reward Range |  Steps   |
| :--------------------------------: | :---------------: | :----------: | :----------: | :------: |
|            CartPole-v0             |      Box(4,)      | Discrete(2)  |   [0,200]    |   200    |
|            CartPole-v1             |      Box(4,)      | Discrete(2)  |   [0,500]    |   500    |
|          CliffWalking-v0           |   Discrete(48)    | Discrete(4)  |  [-inf,-13]  | [13,inf] |
| FrozenLake-v1(*is_slippery*=False) |   Discrete(16)    | Discrete(4)  |    0 or 1    | [6,info] |

## 环境描述

[OpenAI Gym](./gym_info.md)  
[MuJoCo](./mujoco_info.md)