update errata.md

2022-04-21 22:32:13 +08:00
parent ea6cfc71e1
commit 88281b0f61
1 changed files with 24 additions and 0 deletions
--- a/docs/errata.md
+++ b/docs/errata.md
@@ -28,6 +28,30 @@ G_8=r_9+\gamma G_9=-1+0.6 \times(-2.176)=-2.3056 \approx-2.3
 \end{array}
 $$
 * 101页中间一段下面的代码和102页最上面的代码的缩进有问题，改为
 ```python
 rewards = []
 ma_rewards = [] # 滑动平均奖励
 for i_ep in range(cfg.train_eps):
    ep_reward = 0 # 记录每个回合的奖励
    state = env.reset() # 重置环境, 重新开始（开始一个新的回合）
    while True:
        action = agent.choose_action(state) # 根据算法选择一个动作
        next_state, reward, done, _ = env.step(action) # 与环境进行一次动作交互
        agent.update(state, action, reward, next_state, done) # Q学习算法更新
        state = next_state # 存储上一个观察值
        ep_reward += reward
        if done:
            break
    rewards.append(ep_reward)
    if ma_rewards:
        ma_rewards.append(ma_rewards[-1]*0.9+ep_reward*0.1)
    else:
        ma_rewards.append(ep_reward)
 ```
 * 103页，图3.37上面一段：具体可以查看 GitHub 上的源码 → 具体可以查看本书配套代码
 * 149页，式(6.15) 改为
 $$