update
This commit is contained in:
@@ -180,7 +180,7 @@
|
||||
" self.algo = \"DQN\" # 算法名称\n",
|
||||
" self.env = 'CartPole-v0' # 环境名称\n",
|
||||
" self.train_eps = 200 # 训练的回合数\n",
|
||||
" self.eval_eps = 20 # 测试的回合数\n",
|
||||
" self.test_eps = 20 # 测试的回合数\n",
|
||||
" self.gamma = 0.95 # 强化学习中的折扣因子\n",
|
||||
" self.epsilon_start = 0.90 # e-greedy策略中初始epsilon\n",
|
||||
" self.epsilon_end = 0.01 # e-greedy策略中的终止epsilon\n",
|
||||
@@ -365,7 +365,7 @@
|
||||
" cfg.epsilon_end = 0.0 # e-greedy策略中的终止epsilon\n",
|
||||
" rewards = [] # 记录所有回合的奖励\n",
|
||||
" ma_rewards = [] # 记录所有回合的滑动平均奖励\n",
|
||||
" for i_ep in range(cfg.eval_eps):\n",
|
||||
" for i_ep in range(cfg.test_eps):\n",
|
||||
" ep_reward = 0 # 记录一回合内的奖励\n",
|
||||
" state = env.reset() # 重置环境,返回初始状态\n",
|
||||
" while True:\n",
|
||||
@@ -381,7 +381,7 @@
|
||||
" else:\n",
|
||||
" ma_rewards.append(ep_reward)\n",
|
||||
" if (i_ep+1)%3 == 0: \n",
|
||||
" print(f\"回合:{i_ep+1}/{cfg.eval_eps}, 奖励:{ep_reward:.1f}\")\n",
|
||||
" print(f\"回合:{i_ep+1}/{cfg.test_eps}, 奖励:{ep_reward:.1f}\")\n",
|
||||
" print('完成测试!')\n",
|
||||
" return rewards,ma_rewards\n",
|
||||
"\n",
|
||||
|
||||
Reference in New Issue
Block a user