Merge branch 'master' of https://github.com/datawhalechina/leedeeprl-notes

2021-05-07 16:31:28 +08:00
parent 659065e9db 0c0746cbf4
commit 705f5d80a3
3 changed files with 2 additions and 183 deletions
--- a/.gitignore
+++ b/.gitignore
@@ -1,3 +1,4 @@
 .DS_STORE
 __pycache__
 .vscode
+test.py
--- a/codes/A2C/test.py
+++ b/codes/A2C/test.py
@@ -1,162 +0,0 @@
-#!/usr/bin/env python
-# coding=utf-8
-'''
-Author: John
-Email: johnjim0816@gmail.com
-Date: 2021-03-20 17:43:17
-LastEditor: John
-LastEditTime: 2021-04-05 11:19:20
-Discription: 
-Environment: 
-'''
-import sys
-import torch  
-import gym
-import numpy as np  
-import torch.nn as nn
-import torch.optim as optim
-import torch.nn.functional as F
-from torch.autograd import Variable
-import matplotlib.pyplot as plt
-import pandas as pd
-
-
-learning_rate = 3e-4
-
-# Constants
-GAMMA = 0.99
-
-class A2CConfig:
-    ''' hyperparameters
-    '''
-    def __init__(self):
-        self.gamma = 0.99
-        self.lr = 3e-4 # learnning rate
-        self.actor_lr = 1e-4 # learnning rate of actor network
-        self.memory_capacity = 10000 # capacity of replay memory
-        self.batch_size = 128
-        self.train_eps = 3000
-        self.train_steps = 200
-        self.eval_eps = 200
-        self.eval_steps = 200
-        self.target_update = 4
-        self.hidden_dim = 256
-        self.device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
-    
-    
-class ActorCritic(nn.Module):
-    def __init__(self, n_states, n_actions, hidden_dim, learning_rate=3e-4):
-        super(ActorCritic, self).__init__()
-
-        self.n_actions = n_actions
-        self.critic_linear1 = nn.Linear(n_states, hidden_dim)
-        self.critic_linear2 = nn.Linear(hidden_dim, 1)
-
-        self.actor_linear1 = nn.Linear(n_states, hidden_dim)
-        self.actor_linear2 = nn.Linear(hidden_dim, n_actions)
-    
-    def forward(self, state):
-        state = Variable(torch.from_numpy(state).float().unsqueeze(0))
-        value = F.relu(self.critic_linear1(state))
-        value = self.critic_linear2(value)
-        policy_dist = F.relu(self.actor_linear1(state))
-        policy_dist = F.softmax(self.actor_linear2(policy_dist), dim=1)
-
-        return value, policy_dist
-
-class A2C:
-    def __init__(self,n_states,n_actions,cfg):
-        self.model = ActorCritic(n_states, n_actions, cfg.hidden_dim)
-        self.optimizer = optim.Adam(self.model.parameters(), lr=cfg.lr)
-    def choose_action(self,state):
-        pass
-    def update(self):
-        pass
-    
-def train(cfg,env,agent):
-    n_states = env.observation_space.shape[0]
-    n_actions = env.action_space.n
-    actor_critic = ActorCritic(n_states, n_actions, cfg.hidden_dim)
-    ac_optimizer = optim.Adam(actor_critic.parameters(), lr=learning_rate)
-
-    all_lengths = []
-    average_lengths = []
-    all_rewards = []
-    entropy_term = 0
-
-    for episode in range(cfg.train_eps):
-        log_probs = []
-        values = []
-        rewards = []
-        state = env.reset()
-        for steps in range(cfg.train_steps):
-            value, policy_dist = actor_critic.forward(state)
-            value = value.detach().numpy()[0,0]
-            dist = policy_dist.detach().numpy() 
-
-            action = np.random.choice(n_actions, p=np.squeeze(dist))
-            log_prob = torch.log(policy_dist.squeeze(0)[action])
-            entropy = -np.sum(np.mean(dist) * np.log(dist))
-            new_state, reward, done, _ = env.step(action)
-
-            rewards.append(reward)
-            values.append(value)
-            log_probs.append(log_prob)
-            entropy_term += entropy
-            state = new_state
-            
-            if done or steps == cfg.train_steps-1:
-                Qval, _ = actor_critic.forward(new_state)
-                Qval = Qval.detach().numpy()[0,0]
-                all_rewards.append(np.sum(rewards))
-                all_lengths.append(steps)
-                average_lengths.append(np.mean(all_lengths[-10:]))
-                if episode % 10 == 0:                    
-                    sys.stdout.write("episode: {}, reward: {}, total length: {}, average length: {} \n".format(episode, np.sum(rewards), steps+1, average_lengths[-1]))
-                break
-        
-        # compute Q values
-        Qvals = np.zeros_like(values)
-        for t in reversed(range(len(rewards))):
-            Qval = rewards[t] + GAMMA * Qval
-            Qvals[t] = Qval
-  
-        #update actor critic
-        values = torch.FloatTensor(values)
-        Qvals = torch.FloatTensor(Qvals)
-        log_probs = torch.stack(log_probs)
-        
-        advantage = Qvals - values
-        actor_loss = (-log_probs * advantage).mean()
-        critic_loss = 0.5 * advantage.pow(2).mean()
-        ac_loss = actor_loss + critic_loss + 0.001 * entropy_term
-
-        ac_optimizer.zero_grad()
-        ac_loss.backward()
-        ac_optimizer.step()
-
-        
-    
-    # Plot results
-    smoothed_rewards = pd.Series.rolling(pd.Series(all_rewards), 10).mean()
-    smoothed_rewards = [elem for elem in smoothed_rewards]
-    plt.plot(all_rewards)
-    plt.plot(smoothed_rewards)
-    plt.plot()
-    plt.xlabel('Episode')
-    plt.ylabel('Reward')
-    plt.show()
-
-    plt.plot(all_lengths)
-    plt.plot(average_lengths)
-    plt.xlabel('Episode')
-    plt.ylabel('Episode length')
-    plt.show()
-
-if __name__ == "__main__":
-    cfg = A2CConfig()
-    env = gym.make("CartPole-v0")
-    n_states = env.observation_space.shape[0]
-    n_actions = env.action_space.n
-    agent = A2C(n_states,n_actions,cfg)
-    train(cfg,env,agent)    
--- a/codes/test.py
+++ b/codes/test.py
@@ -1,20 +0,0 @@
-#!/usr/bin/env python
-# coding=utf-8
-'''
-Author: JiangJi
-Email: johnjim0816@gmail.com
-Date: 2021-03-25 23:25:15
-LastEditor: JiangJi
-LastEditTime: 2021-04-28 21:36:50
-Discription: 
-Environment: 
-'''
-import random
-dic = {0:"鳗鱼家",1:"一心",2:"bada"}
-print("0:鳗鱼家，1:一心，2:bada")
-print("三次随机，取最后一次选择")
-for i in range(3):
-    if i ==2:
-        print(f"去{dic[random.randint(0,2)]}")
-    else:
-        print(f"不去{dic[random.randint(0,2)]}")