From 2f578919df2c9b8b099729d2873927622512bdf2 Mon Sep 17 00:00:00 2001
From: johnjim0816 <johnjim0816@gmail.com>
Date: Wed, 2 Jun 2021 10:54:35 +0800
Subject: [PATCH] update

---
 docs/chapter3/project1.md | 8 ++++----
 1 file changed, 4 insertions(+), 4 deletions(-)

diff --git a/docs/chapter3/project1.md b/docs/chapter3/project1.md
index adb8ecd..aabdcd5 100644
--- a/docs/chapter3/project1.md
+++ b/docs/chapter3/project1.md
@@ -66,13 +66,13 @@ for i_ep in range(cfg.train_eps): # train_eps: 训练的最大episodes数
 
 ## 主要代码清单
 
-**main.py**：保存强化学习基本接口，以及相应的超参数，可使用argparse
+**main.py** 或 **task_train.py**：保存强化学习基本接口，以及相应的超参数
 
-**model.py**：保存神经网络，比如全连接网络
+**agent.py**: 保存算法模型，主要包含choose_action(预测动作)和update两个函数，有时会多一个predict_action函数，此时choose_action使用了epsilon-greedy策略便于训练的探索，而测试时用predict_action单纯贪心地选择网络的值输出动作
 
-**agent.py**: 保存算法模型，主要包含predict(预测动作)和learn两个函数
+**model.py**：保存神经网络，比如全连接网络等等，对于一些算法，分为Actor和Critic两个类
 
-**params.py**：保存一些参数，比如训练参数等
+**memory.py**：保存replay buffer，根据算法的不同，replay buffer功能有所不同，因此会改写
 
 **plot.py**：保存相关绘制函数