This commit is contained in:
johnjim0816
2021-06-02 10:54:35 +08:00
parent 889b89a859
commit 2f578919df

View File

@@ -66,13 +66,13 @@ for i_ep in range(cfg.train_eps): # train_eps: 训练的最大episodes数
## 主要代码清单
**main.py**:保存强化学习基本接口,以及相应的超参数可使用argparse
**main.py****task_train.py**:保存强化学习基本接口,以及相应的超参数
**model.py**:保存神经网络,比如全连接网络
**agent.py**: 保存算法模型主要包含choose_action(预测动作)和update两个函数有时会多一个predict_action函数此时choose_action使用了epsilon-greedy策略便于训练的探索而测试时用predict_action单纯贪心地选择网络的值输出动作
**agent.py**: 保存算法模型主要包含predict(预测动作)和learn两个函数
**model.py**保存神经网络比如全连接网络等等对于一些算法分为Actor和Critic两个类
**params.py**:保存一些参数,比如训练参数等
**memory.py**:保存replay buffer根据算法的不同replay buffer功能有所不同因此会改写
**plot.py**:保存相关绘制函数