update

2021-12-22 11:19:13 +08:00
parent c257313d5b
commit 75df999258
55 changed files with 605 additions and 403 deletions
--- a/codes/DQN/train.ipynb
+++ b/codes/DQN/train.ipynb
@@ -180,7 +180,7 @@
    "        self.algo = \"DQN\"  # 算法名称\n",
    "        self.env = 'CartPole-v0' # 环境名称\n",
    "        self.train_eps = 200 # 训练的回合数\n",
-    "        self.eval_eps = 20 # 测试的回合数\n",
+    "        self.test_eps = 20 # 测试的回合数\n",
    "        self.gamma = 0.95 # 强化学习中的折扣因子\n",
    "        self.epsilon_start = 0.90 # e-greedy策略中初始epsilon\n",
    "        self.epsilon_end = 0.01 # e-greedy策略中的终止epsilon\n",
@@ -365,7 +365,7 @@
    "    cfg.epsilon_end = 0.0 # e-greedy策略中的终止epsilon\n",
    "    rewards = [] # 记录所有回合的奖励\n",
    "    ma_rewards = []  # 记录所有回合的滑动平均奖励\n",
-    "    for i_ep in range(cfg.eval_eps):\n",
+    "    for i_ep in range(cfg.test_eps):\n",
    "        ep_reward = 0 # 记录一回合内的奖励\n",
    "        state = env.reset() # 重置环境，返回初始状态\n",
    "        while True:\n",
@@ -381,7 +381,7 @@
    "        else:\n",
    "            ma_rewards.append(ep_reward)\n",
    "        if (i_ep+1)%3 == 0: \n",
-    "            print(f\"回合：{i_ep+1}/{cfg.eval_eps}, 奖励：{ep_reward:.1f}\")\n",
+    "            print(f\"回合：{i_ep+1}/{cfg.test_eps}, 奖励：{ep_reward:.1f}\")\n",
    "    print('完成测试！')\n",
    "    return rewards,ma_rewards\n",
    "\n",