From 1fd28e26100eb74481213b724c97cebdcf2226fe Mon Sep 17 00:00:00 2001 From: qiwang067 Date: Tue, 8 Sep 2020 15:33:44 +0800 Subject: [PATCH] fix project2.md typos --- docs/chapter7/project2.md | 4 ++-- 1 file changed, 2 insertions(+), 2 deletions(-) diff --git a/docs/chapter7/project2.md b/docs/chapter7/project2.md index 7eabb1d..540b1e5 100644 --- a/docs/chapter7/project2.md +++ b/docs/chapter7/project2.md @@ -1,10 +1,10 @@ # 使用DQN实现CartPole-v0 -推荐使用Double-DQN去解决,即建立两个初始参数相同的全连接网络target_net,和policy_net。 +推荐使用Double-DQN去解决,即建立两个初始参数相同的全连接网络target_net和policy_net。 ## CartPole-v0 -CartPole-v0是open ai gym中的一个经典环境,通过向左(action=0)或向右(action=1)推车能够实现平衡,所以动作空间由两个动作组成。每进行一个step就会给一个reward,如果无法保持平衡那么done等于true,本次episode失败。理想状态下,每个episode至少能进行200个step,也就是说每个episode的reward总和至少为200,step数目至少为200。 +CartPole-v0是OpenAI gym中的一个经典环境,通过向左(action=0)或向右(action=1)推车能够实现平衡,所以动作空间由两个动作组成。每进行一个step就会给一个reward,如果无法保持平衡那么done等于true,本次episode失败。理想状态下,每个episode至少能进行200个step,也就是说每个episode的reward总和至少为200,step数目至少为200。 ![p1](img/p1.png)