update Q-learning

2021-09-20 15:33:12 +08:00
parent 34fcebc4b8
commit 1e60b688fc
10 changed files with 11 additions and 10 deletions
--- a/codes/QLearning/agent.py
+++ b/codes/QLearning/agent.py
@@ -5,7 +5,7 @@ Author: John
 Email: johnjim0816@gmail.com
 Date: 2020-09-11 23:03:00
 LastEditor: John
-LastEditTime: 2021-09-15 13:18:37
+LastEditTime: 2021-09-19 23:05:45
 Discription: use defaultdict to define Q table
 Environment: 
 '''
--- a/codes/QLearning/outputs/CliffWalking-v0/20210920-003309/models/Qleaning_model.pkl
+++ b/codes/QLearning/outputs/CliffWalking-v0/20210920-003309/models/Qleaning_model.pkl
--- a/codes/QLearning/outputs/CliffWalking-v0/20210920-003309/results/eval_ma_rewards.npy
+++ b/codes/QLearning/outputs/CliffWalking-v0/20210920-003309/results/eval_ma_rewards.npy
--- a/codes/QLearning/outputs/CliffWalking-v0/20210920-003309/results/eval_rewards.npy
+++ b/codes/QLearning/outputs/CliffWalking-v0/20210920-003309/results/eval_rewards.npy
--- a/codes/QLearning/outputs/CliffWalking-v0/20210920-003309/results/eval_rewards_curve_cn.png
+++ b/codes/QLearning/outputs/CliffWalking-v0/20210920-003309/results/eval_rewards_curve_cn.png
--- a/codes/QLearning/outputs/CliffWalking-v0/20210920-003309/results/train_ma_rewards.npy
+++ b/codes/QLearning/outputs/CliffWalking-v0/20210920-003309/results/train_ma_rewards.npy
--- a/codes/QLearning/outputs/CliffWalking-v0/20210920-003309/results/train_rewards.npy
+++ b/codes/QLearning/outputs/CliffWalking-v0/20210920-003309/results/train_rewards.npy
--- a/codes/QLearning/outputs/CliffWalking-v0/20210920-003309/results/train_rewards_curve_cn.png
+++ b/codes/QLearning/outputs/CliffWalking-v0/20210920-003309/results/train_rewards_curve_cn.png
--- a/codes/QLearning/task0_train.py
+++ b/codes/QLearning/task0_train.py
@@ -5,7 +5,7 @@ Author: John
 Email: johnjim0816@gmail.com
 Date: 2020-09-11 23:03:00
 LastEditor: John
-LastEditTime: 2021-09-15 14:44:25
+LastEditTime: 2021-09-20 00:32:59
 Discription: 
 Environment: 
 '''
@@ -31,13 +31,13 @@ class QlearningConfig:
        self.env = 'CliffWalking-v0' # 环境名称
        self.result_path = curr_path+"/outputs/" +self.env+'/'+curr_time+'/results/'  # 保存结果的路径
        self.model_path = curr_path+"/outputs/" +self.env+'/'+curr_time+'/models/'  # 保存模型的路径
-        self.train_eps = 200 # 训练的回合数
+        self.train_eps = 400 # 训练的回合数
        self.eval_eps = 30 # 测试的回合数
        self.gamma = 0.9 # reward的衰减率
-        self.epsilon_start = 0.90 # e-greedy策略中初始epsilon
+        self.epsilon_start = 0.99 # e-greedy策略中初始epsilon
        self.epsilon_end = 0.01 # e-greedy策略中的终止epsilon
-        self.epsilon_decay = 200 # e-greedy策略中epsilon的衰减率
-        self.lr = 0.05 # 学习率
+        self.epsilon_decay = 300 # e-greedy策略中epsilon的衰减率
+        self.lr = 0.1 # 学习率
        self.device = torch.device("cuda" if torch.cuda.is_available() else "cpu") # 检测GPU

        
@@ -111,8 +111,8 @@ if __name__ == "__main__":
    plot_rewards_cn(rewards,ma_rewards,tag="train",env=cfg.env,algo = cfg.algo,path=cfg.result_path)

    # # 测试
-    # env,agent = env_agent_config(cfg,seed=10)
-    # agent.load(path=cfg.model_path) # 加载模型
+    env,agent = env_agent_config(cfg,seed=10)
+    agent.load(path=cfg.model_path) # 加载模型
    rewards,ma_rewards = eval(cfg,env,agent)
    save_results(rewards,ma_rewards,tag='eval',path=cfg.result_path)
    plot_rewards_cn(rewards,ma_rewards,tag="eval",env=cfg.env,algo = cfg.algo,path=cfg.result_path)