hot update

2022-08-22 17:50:11 +08:00
parent 0a54840828
commit ad65dd17cd
54 changed files with 1639 additions and 503 deletions
--- a/projects/codes/DQN/task0.py
+++ b/projects/codes/DQN/task0.py
@@ -1,23 +1,23 @@
 import sys,os
-curr_path = os.path.dirname(os.path.abspath(__file__))  # 当前文件所在绝对路径
-parent_path = os.path.dirname(curr_path)  # 父路径
-sys.path.append(parent_path)  # 添加路径到系统路径
+curr_path = os.path.dirname(os.path.abspath(__file__))  # current path
+parent_path = os.path.dirname(curr_path)  # parent path 
+sys.path.append(parent_path)  # add path to system path

 import gym
 import torch
 import datetime
 import numpy as np
 import argparse
-from common.utils import save_results
+from common.utils import save_results,all_seed
 from common.utils import plot_rewards,save_args
 from common.models import MLP
 from common.memories import ReplayBuffer
 from dqn import DQN

 def get_args():
-    """ 超参数
+    """ hyperparameters
    """
-    curr_time = datetime.datetime.now().strftime("%Y%m%d-%H%M%S")  # 获取当前时间
+    curr_time = datetime.datetime.now().strftime("%Y%m%d-%H%M%S")  # obtain current time
    parser = argparse.ArgumentParser(description="hyperparameters")      
    parser.add_argument('--algo_name',default='DQN',type=str,help="name of algorithm")
    parser.add_argument('--env_name',default='CartPole-v0',type=str,help="name of environment")
@@ -33,102 +33,101 @@ def get_args():
    parser.add_argument('--target_update',default=4,type=int)
    parser.add_argument('--hidden_dim',default=256,type=int)
    parser.add_argument('--device',default='cpu',type=str,help="cpu or cuda") 
+    parser.add_argument('--seed',default=10,type=int,help="seed") 
    parser.add_argument('--result_path',default=curr_path + "/outputs/" + parser.parse_args().env_name + \
-            '/' + curr_time + '/results/' )
+            '/' + curr_time + '/results' )
    parser.add_argument('--model_path',default=curr_path + "/outputs/" + parser.parse_args().env_name + \
-            '/' + curr_time + '/models/' ) 
+            '/' + curr_time + '/models' ) 
    parser.add_argument('--show_fig',default=False,type=bool,help="if show figure or not")  
    parser.add_argument('--save_fig',default=True,type=bool,help="if save figure or not")           
    args = parser.parse_args()                          
    return args

-def env_agent_config(cfg,seed=1):
-    ''' 创建环境和智能体
+def env_agent_config(cfg):
+    ''' create env and agent
    '''
-    env = gym.make(cfg.env_name)  # 创建环境
-    n_states = env.observation_space.shape[0]  # 状态维度
-    n_actions = env.action_space.n  # 动作维度
-    print(f"状态数：{n_states}，动作数：{n_actions}")
+    env = gym.make(cfg.env_name)  # create env
+    if cfg.seed !=0: # set random seed
+        all_seed(env,seed=cfg.seed)
+    n_states = env.observation_space.shape[0]  # state dimension
+    n_actions = env.action_space.n  # action dimension
+    print(f"state dim: {n_states}, action dim: {n_actions}")
    model = MLP(n_states,n_actions,hidden_dim=cfg.hidden_dim)
-    memory =  ReplayBuffer(cfg.memory_capacity) # 经验回放
-    agent = DQN(n_actions,model,memory,cfg)  # 创建智能体
-    if seed !=0: # 设置随机种子
-        torch.manual_seed(seed)
-        env.seed(seed)
-        np.random.seed(seed)
+    memory =  ReplayBuffer(cfg.memory_capacity) # replay buffer
+    agent = DQN(n_actions,model,memory,cfg)  # create agent
    return env, agent

 def train(cfg, env, agent):
    ''' 训练
    '''
-    print("开始训练！")
-    print(f"回合：{cfg.env_name}, 算法：{cfg.algo_name}, 设备：{cfg.device}")
-    rewards = []  # 记录所有回合的奖励
+    print("start training!")
+    print(f"Env: {cfg.env_name}, Algo: {cfg.algo_name}, Device: {cfg.device}")
+    rewards = []  # record rewards for all episodes
    steps = []
    for i_ep in range(cfg.train_eps):
-        ep_reward = 0  # 记录一回合内的奖励
+        ep_reward = 0  # reward per episode
        ep_step = 0
-        state = env.reset()  # 重置环境，返回初始状态
+        state = env.reset()  # reset and obtain initial state
        while True:
            ep_step += 1
-            action = agent.sample(state)  # 选择动作
-            next_state, reward, done, _ = env.step(action)  # 更新环境，返回transition
+            action = agent.sample_action(state)  # sample action
+            next_state, reward, done, _ = env.step(action)  # update env and return transitions
            agent.memory.push(state, action, reward,
-                              next_state, done)  # 保存transition
-            state = next_state  # 更新下一个状态
-            agent.update()  # 更新智能体
-            ep_reward += reward  # 累加奖励
+                              next_state, done)  # save transitions
+            state = next_state  # update next state for env
+            agent.update()  # update agent
+            ep_reward += reward  #
            if done:
                break
-        if (i_ep + 1) % cfg.target_update == 0:  # 智能体目标网络更新
+        if (i_ep + 1) % cfg.target_update == 0:  # target net update, target_update means "C" in pseucodes
            agent.target_net.load_state_dict(agent.policy_net.state_dict())
        steps.append(ep_step)
        rewards.append(ep_reward)
        if (i_ep + 1) % 10 == 0:
-            print(f'回合：{i_ep+1}/{cfg.train_eps}，奖励：{ep_reward:.2f}，Epislon：{agent.epsilon:.3f}')
-    print("完成训练！")
+            print(f'Episode: {i_ep+1}/{cfg.train_eps}, Reward: {ep_reward:.2f}: Epislon: {agent.epsilon:.3f}')
+    print("finish training!")
    env.close()
-    res_dic = {'rewards':rewards}
+    res_dic = {'episodes':range(len(rewards)),'rewards':rewards}
    return res_dic

 def test(cfg, env, agent):
-    print("开始测试！")
-    print(f"回合：{cfg.env_name}, 算法：{cfg.algo_name}, 设备：{cfg.device}")
-    rewards = []  # 记录所有回合的奖励
+    print("start testing!")
+    print(f"Env: {cfg.env_name}, Algo: {cfg.algo_name}, Device: {cfg.device}")
+    rewards = []  # record rewards for all episodes
    steps = []
    for i_ep in range(cfg.test_eps):
-        ep_reward = 0  # 记录一回合内的奖励
+        ep_reward = 0  # reward per episode
        ep_step = 0
-        state = env.reset()  # 重置环境，返回初始状态
+        state = env.reset()  # reset and obtain initial state
        while True:
            ep_step+=1
-            action = agent.predict(state)  # 选择动作
-            next_state, reward, done, _ = env.step(action)  # 更新环境，返回transition
-            state = next_state  # 更新下一个状态
-            ep_reward += reward  # 累加奖励
+            action = agent.predict_action(state)  # predict action
+            next_state, reward, done, _ = env.step(action)  
+            state = next_state  
+            ep_reward += reward 
            if done:
                break
        steps.append(ep_step)
        rewards.append(ep_reward)
-        print(f'回合：{i_ep+1}/{cfg.test_eps}，奖励：{ep_reward:.2f}')
-    print("完成测试")
+        print(f'Episode: {i_ep+1}/{cfg.test_eps}，Reward: {ep_reward:.2f}')
+    print("finish testing!")
    env.close()
-    return {'rewards':rewards}
+    return {'episodes':range(len(rewards)),'rewards':rewards}


 if __name__ == "__main__":
    cfg = get_args()
-    # 训练
+    # training
    env, agent = env_agent_config(cfg)
    res_dic = train(cfg, env, agent)
-    save_args(cfg,path = cfg.result_path) # 保存参数到模型路径上
-    agent.save(path = cfg.model_path)  # 保存模型
-    save_results(res_dic, tag = 'train', path = cfg.result_path)  
-    plot_rewards(res_dic['rewards'], cfg, path = cfg.result_path,tag = "train")  
-    # 测试
-    env, agent = env_agent_config(cfg) # 也可以不加，加这一行的是为了避免训练之后环境可能会出现问题，因此新建一个环境用于测试
-    agent.load(path = cfg.model_path)  # 导入模型
+    save_args(cfg,path = cfg.result_path) # save parameters
+    agent.save_model(path = cfg.model_path)  # save models
+    save_results(res_dic, tag = 'train', path = cfg.result_path) # save results
+    plot_rewards(res_dic['rewards'], cfg, path = cfg.result_path,tag = "train")  # plot results
+    # testing
+    env, agent = env_agent_config(cfg) # create new env for testing, sometimes can ignore this step
+    agent.load_model(path = cfg.model_path)  # load model
    res_dic = test(cfg, env, agent)
    save_results(res_dic, tag='test',
-                 path = cfg.result_path)  # 保存结果
-    plot_rewards(res_dic['rewards'], cfg, path = cfg.result_path,tag = "test")  # 画出结果
+                 path = cfg.result_path)  
+    plot_rewards(res_dic['rewards'], cfg, path = cfg.result_path,tag = "test")