update

2021-06-02 10:54:35 +08:00
parent 889b89a859
commit 2f578919df
1 changed files with 4 additions and 4 deletions
@@ -66,13 +66,13 @@ for i_ep in range(cfg.train_eps): # train_eps: 训练的最大episodes数

 ## 主要代码清单

-**main.py**：保存强化学习基本接口，以及相应的超参数，可使用argparse
+**main.py** 或 **task_train.py**：保存强化学习基本接口，以及相应的超参数

-**model.py**：保存神经网络，比如全连接网络
+**agent.py**: 保存算法模型，主要包含choose_action(预测动作)和update两个函数，有时会多一个predict_action函数，此时choose_action使用了epsilon-greedy策略便于训练的探索，而测试时用predict_action单纯贪心地选择网络的值输出动作

-**agent.py**: 保存算法模型，主要包含predict(预测动作)和learn两个函数
+**model.py**：保存神经网络，比如全连接网络等等，对于一些算法，分为Actor和Critic两个类

-**params.py**：保存一些参数，比如训练参数等
+**memory.py**：保存replay buffer，根据算法的不同，replay buffer功能有所不同，因此会改写

 **plot.py**：保存相关绘制函数