update

2021-05-07 16:31:25 +08:00
parent 4b96f5a6b0
commit 659065e9db
161 changed files with 1963 additions and 1693 deletions
--- a/codes/DQN/README.md
+++ b/codes/DQN/README.md
@@ -1,6 +1,7 @@
 # DQN
-#TODO
+
 ## 原理简介
+
 DQN是Q-leanning算法的优化和延伸，Q-leaning中使用有限的Q表存储值的信息，而DQN中则用神经网络替代Q表存储信息，这样更适用于高维的情况，相关知识基础可参考[datawhale李宏毅笔记-Q学习](https://datawhalechina.github.io/easy-rl/#/chapter6/chapter6)。

 论文方面主要可以参考两篇，一篇就是2013年谷歌DeepMind团队的[Playing Atari with Deep Reinforcement Learning](https://www.cs.toronto.edu/~vmnih/docs/dqn.pdf)，一篇是也是他们团队后来在Nature杂志上发表的[Human-level control through deep reinforcement learning](https://web.stanford.edu/class/psych209/Readings/MnihEtAlHassibis15NatureControlDeepRL.pdf)。后者在算法层面增加target q-net，也可以叫做Nature DQN。
@@ -15,7 +16,7 @@ https://blog.csdn.net/JohnJim0/article/details/109557173)

 <img src="assets/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L0pvaG5KaW0w,size_16,color_FFFFFF,t_70.png" alt="img" style="zoom:50%;" />

-## 代码实战
+## 代码实现

 ### RL接口

@@ -24,23 +25,26 @@ https://blog.csdn.net/JohnJim0/article/details/109557173)
 for i_episode in range(MAX_EPISODES):
 	state = env.reset() # reset环境状态
 	for i_step in range(MAX_STEPS):
-		 action = agent.choose_action(state) # 根据当前环境state选择action
-         next_state, reward, done, _ = env.step(action) # 更新环境参数
-         agent.memory.push(state, action, reward, next_state, done) # 将state等这些transition存入memory
-         agent.update() # 每步更新网络
-         state = next_state # 跳转到下一个状态
-         if done:
-         	break        
+    action = agent.choose_action(state) # 根据当前环境state选择action
+    next_state, reward, done, _ = env.step(action) # 更新环境参数
+    agent.memory.push(state, action, reward, next_state, done) # 将state等这些transition存入memory
+    agent.update() # 每步更新网络
+    state = next_state # 跳转到下一个状态
+    if done:
+    	break        
 ```
-如上，首先需要循环多个episode训练，在每个episode中，首先需要重置环境，然后开始探索，每个episode加一个MAX_STEPS(也可以使用while not done, 加这个max_steps有时是因为比如gym环境训练目标就是在200个step下达到200的reward)，接下来的流程如下：
+每个episode加一个MAX_STEPS，也可以使用while not done, 加这个max_steps有时是因为比如gym环境训练目标就是在200个step下达到200的reward，或者是当完成一个episode的步数较多时也可以设置，基本流程跟所有伪代码一致，如下：
 1. agent选择动作
-2. 环境根据agent的动作反馈出新的state和reward
+2. 环境根据agent的动作反馈出next_state和reward
 3. agent进行更新，如有memory就会将transition(包含state，reward，action等)存入memory中
 4. 跳转到下一个状态
-如果提前done了，就跳出for循环，进行下一个episode的训练。
+5. 如果done了，就跳出循环，进行下一个episode的训练。
+
+想要实现完整的算法还需要创建Qnet，Replaybuffer等类

 ### 两个Q网络
-前面讲了Nature DQN中有两个Q网络，一个是policy_net，一个是延时更新的target_net，两个网络的结构是一模一样的，如下(见```model.py```)：
+
+上文讲了Nature DQN中有两个Q网络，一个是policy_net，一个是延时更新的target_net，两个网络的结构是一模一样的，如下(见```model.py```)，注意DQN使用的Qnet就是全连接网络即FCH：
 ```python
 import torch.nn as nn
 import torch.nn.functional as F
@@ -62,30 +66,12 @@ class FCN(nn.Module):
        x = F.relu(self.fc2(x))
        return self.fc3(x)
 ```
-输入为state，输出为action，注意根据state和action的维度调整隐藏层的层数，这里设为128
+输入为state_dim，输出为action_dim，包含一个128维度的隐藏层，这里根据需要可增加隐藏层维度和数量，然后一般使用relu激活函数，这里跟深度学习的网路设置是一样的。
+
+### Replay Buffer
+
+然后就是Replay Memory了，其作用主要是是克服经验数据的相关性（correlated data）和非平稳分布（non-stationary distribution）问题，实现如下(见```memory.py```)：

-在```agent.py```中我们定义强化学习算法，包括```choose_action```和```update```两个主要函数，初始化中：
-```python
-self.policy_net = FCN(state_dim, action_dim).to(self.device)
-self.target_net = FCN(state_dim, action_dim).to(self.device)
-# target_net的初始模型参数完全复制policy_net
-self.target_net.load_state_dict(self.policy_net.state_dict())
-self.target_net.eval()  # 不启用 BatchNormalization 和 Dropout
-# 可查parameters()与state_dict()的区别，前者require_grad=True
-```
-可以看到policy_net跟target_net结构和初始参数一样，但在更新的时候target是每隔一段episode更新的，如下(见```main.py```)：
-```python
-# 更新target network，复制DQN中的所有weights and biases
-if i_episode % cfg.target_update == 0:
-	agent.target_net.load_state_dict(agent.policy_net.state_dict())
-```
-可以调整```cfg.target_update```，注意该变量不要调得太大，否则会收敛很慢，我们最后保存的模型也是这个target_net，如下(见```agent.py```)：
-```python
-def save_model(self,path):
-	torch.save(self.target_net.state_dict(), path)
-```
-### Replay Memory
-然后就是Replay Memory了，如下(见```memory.py```)：
 ```python
 import random
 import numpy as np
@@ -111,11 +97,120 @@ class ReplayBuffer:
    def __len__(self):
        return len(self.buffer)
 ```
-其实比较简单，主要包括push和sample两个步骤，push是将transitions放到memory中，sample是从memory随机抽取一些transition。

-最后结果如下：
+参数capacity表示buffer的容量，主要包括push和sample两个步骤，push是将transitions放到memory中，sample是从memory随机抽取一些transition。

-![rewards_curve_train](assets/rewards_curve_train.png)
+### Agent类
+
+在```agent.py```中我们定义强化学习算法类，包括```choose_action```(选择动作，使用e-greedy策略时会多一个```predict```函数，下面会将到)和```update```(更新)等函数。
+
+在类中建立两个网络，以及optimizer和memory，
+
+```python
+self.policy_net = MLP(state_dim, action_dim,hidden_dim=cfg.hidden_dim).to(self.device)
+self.target_net = MLP(state_dim, action_dim,hidden_dim=cfg.hidden_dim).to(self.device)
+for target_param, param in zip(self.target_net.parameters(),self.policy_net.parameters()): # copy params from policy net
+    target_param.data.copy_(param.data)
+self.optimizer = optim.Adam(self.policy_net.parameters(), lr=cfg.lr)
+self.memory = ReplayBuffer(cfg.memory_capacity)
+```
+然后是选择action：
+
+```python
+def choose_action(self, state):
+        '''选择动作
+        '''
+    self.frame_idx += 1
+    if random.random() > self.epsilon(self.frame_idx):
+        action = self.predict(state)
+    else:
+        action = random.randrange(self.action_dim)
+    return action
+```
+
+这里使用e-greedy策略，即设置一个参数epsilon，如果生成的随机数大于epsilon，就根据网络预测的选择action，否则还是随机选择action，这个epsilon是会逐渐减小的，可以使用线性或者指数减小的方式，但不会减小到零，这样在训练稳定时还能保持一定的探索，这部分可以学习探索与利用(exploration and exploition)相关知识。
+
+上面讲到的预测函数其实就是根据state选取q值最大的action，如下：
+
+```python
+def predict(self,state):
+    with torch.no_grad():
+        state = torch.tensor([state], device=self.device, dtype=torch.float32)
+        q_values = self.policy_net(state)
+        action = q_values.max(1)[1].item()
+```
+
+然后是更新函数了：
+
+```python
+def update(self):
+
+        if len(self.memory) < self.batch_size:
+            return
+        # 从memory中随机采样transition
+        state_batch, action_batch, reward_batch, next_state_batch, done_batch = self.memory.sample(
+            self.batch_size)
+        '''转为张量
+        例如tensor([[-4.5543e-02, -2.3910e-01,  1.8344e-02,  2.3158e-01],...,[-1.8615e-02, -2.3921e-01, -1.1791e-02,  2.3400e-01]])'''
+        state_batch = torch.tensor(
+            state_batch, device=self.device, dtype=torch.float)
+        action_batch = torch.tensor(action_batch, device=self.device).unsqueeze(
+            1)  # 例如tensor([[1],...,[0]])
+        reward_batch = torch.tensor(
+            reward_batch, device=self.device, dtype=torch.float)  # tensor([1., 1.,...,1])
+        next_state_batch = torch.tensor(
+            next_state_batch, device=self.device, dtype=torch.float)
+        done_batch = torch.tensor(np.float32(
+            done_batch), device=self.device)
+
+        '''计算当前(s_t,a)对应的Q(s_t, a)'''
+        '''torch.gather:对于a=torch.Tensor([[1,2],[3,4]]),那么a.gather(1,torch.Tensor([[0],[1]]))=torch.Tensor([[1],[3]])'''
+        q_values = self.policy_net(state_batch).gather(
+            dim=1, index=action_batch)  # 等价于self.forward
+        # 计算所有next states的V(s_{t+1})，即通过target_net中选取reward最大的对应states
+        next_q_values = self.target_net(next_state_batch).max(
+            1)[0].detach()  # 比如tensor([ 0.0060, -0.0171,...,])
+        # 计算 expected_q_value
+        # 对于终止状态，此时done_batch[0]=1, 对应的expected_q_value等于reward
+        expected_q_values = reward_batch + \
+            self.gamma * next_q_values * (1-done_batch)
+        # self.loss = F.smooth_l1_loss(q_values,expected_q_values.unsqueeze(1)) # 计算 Huber loss
+        loss = nn.MSELoss()(q_values, expected_q_values.unsqueeze(1))  # 计算 均方误差loss
+        # 优化模型
+        self.optimizer.zero_grad()  # zero_grad清除上一步所有旧的gradients from the last step
+        # loss.backward()使用backpropagation计算loss相对于所有parameters(需要gradients)的微分
+        loss.backward()
+        # for param in self.policy_net.parameters():  # clip防止梯度爆炸
+        #     param.grad.data.clamp_(-1, 1)
+        self.optimizer.step()  # 更新模型
+```
+
+更新遵循伪代码的以下部分：
+
+<img src="assets/image-20210507162813393.png" alt="image-20210507162813393" style="zoom:50%;" />
+
+首先从replay buffer中选取一个batch的数据，计算loss，然后进行minibatch SGD。
+
+然后是保存与加载模型的部分，如下：
+
+```python
+def save(self, path):
+        torch.save(self.target_net.state_dict(), path+'dqn_checkpoint.pth')
+def load(self, path):
+    self.target_net.load_state_dict(torch.load(path+'dqn_checkpoint.pth'))
+    for target_param, param in zip(self.target_net.parameters(), self.policy_net.parameters()):
+        param.data.copy_(target_param.data)
+```
+
+
+
+### 实验结果
+
+训练结果如下：
+
+<img src="assets/train_rewards_curve.png" alt="train_rewards_curve" style="zoom: 67%;" />
+
+<img src="assets/eval_rewards_curve.png" alt="eval_rewards_curve" style="zoom:67%;" />

 ## 参考

--- a/codes/DQN/agent.py
+++ b/codes/DQN/agent.py
@@ -5,7 +5,7 @@
@Email: johnjim0816@gmail.com
@Date: 2020-06-12 00:50:49
@LastEditor: John
-LastEditTime: 2021-04-29 22:19:18
+LastEditTime: 2021-05-07 16:30:05
@Discription: 
@Environment: python 3.7.7
 '''
@@ -35,15 +35,13 @@ class DQN:
            (cfg.epsilon_start - cfg.epsilon_end) * \
            math.exp(-1. * frame_idx / cfg.epsilon_decay)
        self.batch_size = cfg.batch_size
-        self.policy_net = MLP(state_dim, action_dim,
-                              hidden_dim=cfg.hidden_dim).to(self.device)
-        self.target_net = MLP(state_dim, action_dim,
-                              hidden_dim=cfg.hidden_dim).to(self.device)
-        for target_param, param in zip(self.target_net.parameters(), self.policy_net.parameters()):
+        self.policy_net = MLP(state_dim, action_dim,hidden_dim=cfg.hidden_dim).to(self.device)
+        self.target_net = MLP(state_dim, action_dim,hidden_dim=cfg.hidden_dim).to(self.device)
+        for target_param, param in zip(self.target_net.parameters(),self.policy_net.parameters()): # copy params from policy net
            target_param.data.copy_(param.data)
        self.optimizer = optim.Adam(self.policy_net.parameters(), lr=cfg.lr)
-        self.loss = 0
        self.memory = ReplayBuffer(cfg.memory_capacity)
+        

    def choose_action(self, state):
        '''选择动作
@@ -92,11 +90,11 @@ class DQN:
        expected_q_values = reward_batch + \
            self.gamma * next_q_values * (1-done_batch)
        # self.loss = F.smooth_l1_loss(q_values,expected_q_values.unsqueeze(1)) # 计算 Huber loss
-        self.loss = nn.MSELoss()(q_values, expected_q_values.unsqueeze(1))  # 计算 均方误差loss
+        loss = nn.MSELoss()(q_values, expected_q_values.unsqueeze(1))  # 计算 均方误差loss
        # 优化模型
        self.optimizer.zero_grad()  # zero_grad清除上一步所有旧的gradients from the last step
        # loss.backward()使用backpropagation计算loss相对于所有parameters(需要gradients)的微分
-        self.loss.backward()
+        loss.backward()
        # for param in self.policy_net.parameters():  # clip防止梯度爆炸
        #     param.grad.data.clamp_(-1, 1)
        self.optimizer.step()  # 更新模型
--- a/codes/DQN/assets/eval_rewards_curve.png
+++ b/codes/DQN/assets/eval_rewards_curve.png
--- a/codes/DQN/assets/image-20210507162813393.png
+++ b/codes/DQN/assets/image-20210507162813393.png
--- a/codes/DQN/assets/train_rewards_curve.png
+++ b/codes/DQN/assets/train_rewards_curve.png
--- a/codes/DQN/main.ipynb
+++ b/codes/DQN/main.ipynb
--- a/codes/DQN/outputs/CartPole-v0/20210429-222132/models/dqn_checkpoint.pth
+++ b/codes/DQN/outputs/CartPole-v0/20210429-222132/models/dqn_checkpoint.pth
--- a/codes/DQN/outputs/CartPole-v0/20210429-222132/results/eval_ma_rewards.npy
+++ b/codes/DQN/outputs/CartPole-v0/20210429-222132/results/eval_ma_rewards.npy
--- a/codes/DQN/outputs/CartPole-v0/20210429-222132/results/eval_rewards.npy
+++ b/codes/DQN/outputs/CartPole-v0/20210429-222132/results/eval_rewards.npy
--- a/codes/DQN/outputs/CartPole-v0/20210429-222132/results/eval_rewards_curve.png
+++ b/codes/DQN/outputs/CartPole-v0/20210429-222132/results/eval_rewards_curve.png
--- a/codes/DQN/outputs/CartPole-v0/20210429-222132/results/train_ma_rewards.npy
+++ b/codes/DQN/outputs/CartPole-v0/20210429-222132/results/train_ma_rewards.npy
--- a/codes/DQN/outputs/CartPole-v0/20210429-222132/results/train_rewards.npy
+++ b/codes/DQN/outputs/CartPole-v0/20210429-222132/results/train_rewards.npy
--- a/codes/DQN/outputs/CartPole-v0/20210429-222132/results/train_rewards_curve.png
+++ b/codes/DQN/outputs/CartPole-v0/20210429-222132/results/train_rewards_curve.png
--- a/codes/DQN/outputs/CartPole-v0/20210504-190229/models/dqn_checkpoint.pth
+++ b/codes/DQN/outputs/CartPole-v0/20210504-190229/models/dqn_checkpoint.pth
--- a/codes/DQN/outputs/CartPole-v0/20210504-190229/results/eval_ma_rewards.npy
+++ b/codes/DQN/outputs/CartPole-v0/20210504-190229/results/eval_ma_rewards.npy
--- a/codes/DQN/outputs/CartPole-v0/20210504-190229/results/eval_rewards.npy
+++ b/codes/DQN/outputs/CartPole-v0/20210504-190229/results/eval_rewards.npy
--- a/codes/DQN/outputs/CartPole-v0/20210504-190229/results/eval_rewards_curve.png
+++ b/codes/DQN/outputs/CartPole-v0/20210504-190229/results/eval_rewards_curve.png
--- a/codes/DQN/outputs/CartPole-v0/20210504-190229/results/train_ma_rewards.npy
+++ b/codes/DQN/outputs/CartPole-v0/20210504-190229/results/train_ma_rewards.npy
--- a/codes/DQN/outputs/CartPole-v0/20210504-190229/results/train_rewards.npy
+++ b/codes/DQN/outputs/CartPole-v0/20210504-190229/results/train_rewards.npy
--- a/codes/DQN/outputs/CartPole-v0/20210504-190229/results/train_rewards_curve.png
+++ b/codes/DQN/outputs/CartPole-v0/20210504-190229/results/train_rewards_curve.png
--- a/codes/DQN/task0_train.ipynb
+++ b/codes/DQN/task0_train.ipynb
--- a/codes/DQN/task0_train.py
+++ b/codes/DQN/task0_train.py
@@ -5,7 +5,7 @@
@Email: johnjim0816@gmail.com
@Date: 2020-06-12 00:48:57
@LastEditor: John
-LastEditTime: 2021-04-29 22:23:38
+LastEditTime: 2021-05-05 16:49:15
@Discription: 
@Environment: python 3.7.7
 '''
@@ -14,20 +14,17 @@ curr_path = os.path.dirname(__file__)
 parent_path = os.path.dirname(curr_path)
 sys.path.append(parent_path)  # add current terminal path to sys.path

-import datetime
-import torch
 import gym
+import torch
+import datetime

-from common.utils import save_results, make_dir, del_empty_dir
+from common.utils import save_results, make_dir
 from common.plot import plot_rewards
 from DQN.agent import DQN

-
-
 curr_time = datetime.datetime.now().strftime(
    "%Y%m%d-%H%M%S")  # obtain current time

-
 class DQNConfig:
    def __init__(self):
        self.algo = "DQN"  # name of algo
@@ -35,21 +32,21 @@ class DQNConfig:
        self.result_path = curr_path+"/outputs/" + self.env + \
            '/'+curr_time+'/results/'  # path to save results
        self.model_path = curr_path+"/outputs/" + self.env + \
-            '/'+curr_time+'/models/'  # path to save results
-        self.train_eps = 300  # 训练的episode数目
+            '/'+curr_time+'/models/'  # path to save models
+        self.train_eps = 300  # max trainng episodes
        self.eval_eps = 50 # number of episodes for evaluating
        self.gamma = 0.95
-        self.epsilon_start = 0.90  # e-greedy策略的初始epsilon
+        self.epsilon_start = 0.90  # start epsilon of e-greedy policy
        self.epsilon_end = 0.01
        self.epsilon_decay = 500
        self.lr = 0.0001  # learning rate
-        self.memory_capacity = 100000  # Replay Memory容量
+        self.memory_capacity = 100000  # capacity of Replay Memory
        self.batch_size = 64
-        self.target_update = 2  # target net的更新频率
+        self.target_update = 4 # update frequency of target net
        self.device = torch.device(
-            "cuda" if torch.cuda.is_available() else "cpu")  # 检测gpu
-        self.hidden_dim = 256  # 神经网络隐藏层维度
-
+            "cuda" if torch.cuda.is_available() else "cpu")  # check gpu
+        self.hidden_dim = 256  # hidden size of net
+        
 def env_agent_config(cfg,seed=1):
    env = gym.make(cfg.env)  
    env.seed(seed)
@@ -63,7 +60,7 @@ def train(cfg, env, agent):
    print(f'Env:{cfg.env}, Algorithm:{cfg.algo}, Device:{cfg.device}')
    rewards = []
    ma_rewards = []  # moveing average reward
-    for i_episode in range(cfg.train_eps):
+    for i_ep in range(cfg.train_eps):
        state = env.reset()
        done = False
        ep_reward = 0
@@ -76,11 +73,12 @@ def train(cfg, env, agent):
            agent.update()
            if done:
                break
-        if i_episode % cfg.target_update == 0:
+        if (i_ep+1) % cfg.target_update == 0:
            agent.target_net.load_state_dict(agent.policy_net.state_dict())
-        print('Episode:{}/{}, Reward:{}'.format(i_episode+1, cfg.train_eps, ep_reward))
+        if (i_ep+1)%10 == 0:
+            print('Episode:{}/{}, Reward:{}'.format(i_ep+1, cfg.train_eps, ep_reward))
        rewards.append(ep_reward)
-        # 计算滑动窗口的reward
+        # save ma rewards
        if ma_rewards:
            ma_rewards.append(0.9*ma_rewards[-1]+0.1*ep_reward)
        else:
@@ -89,15 +87,17 @@ def train(cfg, env, agent):
    return rewards, ma_rewards

 def eval(cfg,env,agent):
-    rewards = []  # 记录所有episode的reward
-    ma_rewards = [] # 滑动平均的reward
+    print('Start to eval !')
+    print(f'Env:{cfg.env}, Algorithm:{cfg.algo}, Device:{cfg.device}')
+    rewards = []  
+    ma_rewards = [] # moving average rewards
    for i_ep in range(cfg.eval_eps):
-        ep_reward = 0  # 记录每个episode的reward
-        state = env.reset()  # 重置环境, 重新开一局（即开始新的一个episode）
+        ep_reward = 0  # reward per episode
+        state = env.reset()  
        while True:
-            action = agent.predict(state)  # 根据算法选择一个动作
-            next_state, reward, done, _ = env.step(action)  # 与环境进行一个交互
-            state = next_state  # 存储上一个观察值
+            action = agent.predict(state) 
+            next_state, reward, done, _ = env.step(action)  
+            state = next_state  
            ep_reward += reward
            if done:
                break
@@ -106,11 +106,15 @@ def eval(cfg,env,agent):
            ma_rewards.append(ma_rewards[-1]*0.9+ep_reward*0.1)
        else:
            ma_rewards.append(ep_reward)
-        print(f"Episode:{i_ep+1}/{cfg.eval_eps}, reward:{ep_reward:.1f}")
+        if (i_ep+1)%10 == 10:
+            print(f"Episode:{i_ep+1}/{cfg.eval_eps}, reward:{ep_reward:.1f}")
+    print('Complete evaling！')
    return rewards,ma_rewards

 if __name__ == "__main__":
    cfg = DQNConfig()
+
+    # train
    env,agent = env_agent_config(cfg,seed=1)
    rewards, ma_rewards = train(cfg, env, agent)
    make_dir(cfg.result_path, cfg.model_path)
@@ -118,7 +122,7 @@ if __name__ == "__main__":
    save_results(rewards, ma_rewards, tag='train', path=cfg.result_path)
    plot_rewards(rewards, ma_rewards, tag="train",
                 algo=cfg.algo, path=cfg.result_path)
-
+    # eval
    env,agent = env_agent_config(cfg,seed=10)
    agent.load(path=cfg.model_path)
    rewards,ma_rewards = eval(cfg,env,agent)