update codes

2021-12-28 18:46:52 +08:00
parent 41fb561d25
commit bd51b5a7ad
52 changed files with 305 additions and 292 deletions
--- a/codes/Docs/使用Q-learning解决悬崖寻路问题.md
+++ b/codes/Docs/使用Q-learning解决悬崖寻路问题.md
@@ -27,21 +27,21 @@ env = gym.make('CliffWalking-v0')  # 定义环境
 env = CliffWalkingWapper(env) # 装饰环境
 ```

-这里我们在程序中使用了一个装饰器重新定义环境，但不影响对环境的理解，感兴趣的同学具体看相关代码。可以由于gym环境封装得比较好，所以我们想要使用这个环境只需要使用gym.make命令输入函数名即可，然后我们可以查看环境的状态和动作数目：
+这里我们在程序中使用了一个装饰器重新定义环境，但不影响对环境的理解，感兴趣的同学具体看相关代码。可以由于gym环境封装得比较好，所以我们想要使用这个环境只需要使用gym.make命令输入函数名即可，然后我们可以查看环境的状态和动作维度目：

 ```python
-n_states = env.observation_space.n # 状态数
-n_actions = env.action_space.n # 动作数
-print(f"状态数：{n_states}，动作数：{n_actions}")
+state_dim = env.observation_space.n # 状态维度
+action_dim = env.action_space.n # 动作维度
+print(f"状态维度：{state_dim}，动作维度：{action_dim}")
 ```

 打印出来的结果如下：

 ```bash
-状态数：48，动作数：4
+状态维度：48，动作维度：4
 ```

-我们的状态数是48个，这里我们设置的是智能体当前所在网格的编号，而动作数是4，这表示有0，1，2，3对应着上下左右四个动作。另外我们也可以初始化环境并打印当前所在的状态：
+我们的状态维度是48个，这里我们设置的是智能体当前所在网格的编号，而动作维度是4，这表示有0，1，2，3对应着上下左右四个动作。另外我们也可以初始化环境并打印当前所在的状态：

 ```python
 state = env.reset()
@@ -72,9 +72,9 @@ print(state)
 env = gym.make('CliffWalking-v0')  # 定义环境
 env = CliffWalkingWapper(env) # 装饰环境
 env.seed(1) # 设置随机种子
-n_states = env.observation_space.n # 状态数
-n_actions = env.action_space.n # 动作数
-agent = QLearning(n_states,n_actions,cfg) # cfg存储算法相关参数
+state_dim = env.observation_space.n # 状态维度
+action_dim = env.action_space.n # 动作维度
+agent = QLearning(state_dim,action_dim,cfg) # cfg存储算法相关参数
 for i_ep in range(cfg.train_eps): # cfg.train_eps表示最大训练的回合数
    ep_reward = 0  # 记录每个回合的奖励
    state = env.reset()  # 重置环境
@@ -126,7 +126,7 @@ def choose_action(self, state):
      if np.random.uniform(0, 1) > self.epsilon:
          action = np.argmax(self.Q_table[str(state)]) # 选择Q(s,a)最大对应的动作
      else:
-          action = np.random.choice(self.n_actions) # 随机选择动作
+          action = np.random.choice(self.action_dim) # 随机选择动作
      return action
 ```