From 2f578919df2c9b8b099729d2873927622512bdf2 Mon Sep 17 00:00:00 2001 From: johnjim0816 Date: Wed, 2 Jun 2021 10:54:35 +0800 Subject: [PATCH] update --- docs/chapter3/project1.md | 8 ++++---- 1 file changed, 4 insertions(+), 4 deletions(-) diff --git a/docs/chapter3/project1.md b/docs/chapter3/project1.md index adb8ecd..aabdcd5 100644 --- a/docs/chapter3/project1.md +++ b/docs/chapter3/project1.md @@ -66,13 +66,13 @@ for i_ep in range(cfg.train_eps): # train_eps: 训练的最大episodes数 ## 主要代码清单 -**main.py**:保存强化学习基本接口,以及相应的超参数,可使用argparse +**main.py** 或 **task_train.py**:保存强化学习基本接口,以及相应的超参数 -**model.py**:保存神经网络,比如全连接网络 +**agent.py**: 保存算法模型,主要包含choose_action(预测动作)和update两个函数,有时会多一个predict_action函数,此时choose_action使用了epsilon-greedy策略便于训练的探索,而测试时用predict_action单纯贪心地选择网络的值输出动作 -**agent.py**: 保存算法模型,主要包含predict(预测动作)和learn两个函数 +**model.py**:保存神经网络,比如全连接网络等等,对于一些算法,分为Actor和Critic两个类 -**params.py**:保存一些参数,比如训练参数等 +**memory.py**:保存replay buffer,根据算法的不同,replay buffer功能有所不同,因此会改写 **plot.py**:保存相关绘制函数