fix project2.md typos

This commit is contained in:
qiwang067
2020-09-08 15:33:44 +08:00
parent 1b0e17df1d
commit 1fd28e2610

View File

@@ -1,10 +1,10 @@
# 使用DQN实现CartPole-v0 # 使用DQN实现CartPole-v0
推荐使用Double-DQN去解决即建立两个初始参数相同的全连接网络target_net和policy_net。 推荐使用Double-DQN去解决即建立两个初始参数相同的全连接网络target_net和policy_net。
## CartPole-v0 ## CartPole-v0
CartPole-v0是open ai gym中的一个经典环境通过向左(action=0)或向右(action=1)推车能够实现平衡所以动作空间由两个动作组成。每进行一个step就会给一个reward如果无法保持平衡那么done等于true本次episode失败。理想状态下每个episode至少能进行200个step也就是说每个episode的reward总和至少为200step数目至少为200。 CartPole-v0是OpenAI gym中的一个经典环境通过向左(action=0)或向右(action=1)推车能够实现平衡所以动作空间由两个动作组成。每进行一个step就会给一个reward如果无法保持平衡那么done等于true本次episode失败。理想状态下每个episode至少能进行200个step也就是说每个episode的reward总和至少为200step数目至少为200。
![p1](img/p1.png) ![p1](img/p1.png)