update codes
This commit is contained in:
@@ -14,10 +14,10 @@ CartPole-v0是一个经典的入门环境,如下图,它通过向左(动作=0
|
||||
import gym
|
||||
env = gym.make('CartPole-v0') # 建立环境
|
||||
env.seed(1) # 随机种子
|
||||
n_states = env.observation_space.shape[0] # 状态数
|
||||
n_actions = env.action_space.n # 动作数
|
||||
state_dim = env.observation_space.shape[0] # 状态数
|
||||
action_dim = env.action_space.n # 动作数
|
||||
state = env.reset() # 初始化环境
|
||||
print(f"状态数:{n_states},动作数:{n_actions}")
|
||||
print(f"状态数:{state_dim},动作数:{action_dim}")
|
||||
print(f"初始状态:{state}")
|
||||
```
|
||||
|
||||
|
||||
@@ -30,9 +30,9 @@ env = CliffWalkingWapper(env) # 装饰环境
|
||||
这里我们在程序中使用了一个装饰器重新定义环境,但不影响对环境的理解,感兴趣的同学具体看相关代码。可以由于gym环境封装得比较好,所以我们想要使用这个环境只需要使用gym.make命令输入函数名即可,然后我们可以查看环境的状态和动作数目:
|
||||
|
||||
```python
|
||||
n_states = env.observation_space.n # 状态数
|
||||
n_actions = env.action_space.n # 动作数
|
||||
print(f"状态数:{n_states},动作数:{n_actions}")
|
||||
state_dim = env.observation_space.n # 状态数
|
||||
action_dim = env.action_space.n # 动作数
|
||||
print(f"状态数:{state_dim},动作数:{action_dim}")
|
||||
```
|
||||
|
||||
打印出来的结果如下:
|
||||
@@ -72,9 +72,9 @@ print(state)
|
||||
env = gym.make('CliffWalking-v0') # 定义环境
|
||||
env = CliffWalkingWapper(env) # 装饰环境
|
||||
env.seed(1) # 设置随机种子
|
||||
n_states = env.observation_space.n # 状态数
|
||||
n_actions = env.action_space.n # 动作数
|
||||
agent = QLearning(n_states,n_actions,cfg) # cfg存储算法相关参数
|
||||
state_dim = env.observation_space.n # 状态数
|
||||
action_dim = env.action_space.n # 动作数
|
||||
agent = QLearning(state_dim,action_dim,cfg) # cfg存储算法相关参数
|
||||
for i_ep in range(cfg.train_eps): # cfg.train_eps表示最大训练的回合数
|
||||
ep_reward = 0 # 记录每个回合的奖励
|
||||
state = env.reset() # 重置环境
|
||||
|
||||
Reference in New Issue
Block a user