update errata
This commit is contained in:
@@ -18,12 +18,14 @@
|
|||||||
pip install gym==0.25.2
|
pip install gym==0.25.2
|
||||||
```
|
```
|
||||||
|
|
||||||
|
* 31页,第三段:开发(exploitation)→ 利用(exploitation)
|
||||||
* 35页的图2.2 和 41页的图2.5(a)添加从 $s_1$ 到 $s_4$ 的箭头,替换成下图:
|
* 35页的图2.2 和 41页的图2.5(a)添加从 $s_1$ 到 $s_4$ 的箭头,替换成下图:
|
||||||
|
|
||||||

|

|
||||||
|
|
||||||
* 38页,式(2.7)下面一段第1行:$s^{\prime}$ 可以看成未来的所有状态 → $s^{\prime}$ 可以看成未来的某个状态
|
* 38页,式(2.7)下面一段第1行:$s^{\prime}$ 可以看成未来的所有状态 → $s^{\prime}$ 可以看成未来的某个状态
|
||||||
* 38页,式(2.7)下面一段第2行:未来某一个状态的价值 → 未来某个状态的价值
|
* 38页,式(2.7)下面一段第2行:未来某一个状态的价值 → 未来某个状态的价值
|
||||||
|
* 38页,式(2.7)下面一段第2行:未来某一个状态的价值 → 未来某个状态的价值
|
||||||
* 52页,第二段修改为:
|
* 52页,第二段修改为:
|
||||||
|
|
||||||
    举一个例子来说明预测与控制的区别。首先是预测问题。在图 2.16(a)的方格中,智能体可以采取上、下、左、右4个动作。如果采取的动作让智能体走出网格,则其会在原位置不动,并且得到 -1 的奖励。除了将智能体从 $\mathrm{A}$ 和 $\mathrm{B}$ 移走的动作外,其他动作的奖励均为 0。智能体在 $\mathrm{A}$ 采取任意一个动作,都会移动到 $\mathrm{A}^{\prime}$ ,并且得到 +10 的奖励。智能体在 $\mathrm{B}$ 采取任意一个动作,都会移动到 $\mathrm{B}^{\prime}$ ,并且得到 +5 的奖励。如图 2.16(b)所示,现在,我们给定一个策略:在任何状态中,智能体的动作模式都是随机的,也就是上、下、左、右的概率均为 0.25。预测问题要做的就是,求出在这种决策模式下的价值函数。图 2.16 (c)是折扣因子为 $\gamma=0.9$ 时对应的价值函数。
|
    举一个例子来说明预测与控制的区别。首先是预测问题。在图 2.16(a)的方格中,智能体可以采取上、下、左、右4个动作。如果采取的动作让智能体走出网格,则其会在原位置不动,并且得到 -1 的奖励。除了将智能体从 $\mathrm{A}$ 和 $\mathrm{B}$ 移走的动作外,其他动作的奖励均为 0。智能体在 $\mathrm{A}$ 采取任意一个动作,都会移动到 $\mathrm{A}^{\prime}$ ,并且得到 +10 的奖励。智能体在 $\mathrm{B}$ 采取任意一个动作,都会移动到 $\mathrm{B}^{\prime}$ ,并且得到 +5 的奖励。如图 2.16(b)所示,现在,我们给定一个策略:在任何状态中,智能体的动作模式都是随机的,也就是上、下、左、右的概率均为 0.25。预测问题要做的就是,求出在这种决策模式下的价值函数。图 2.16 (c)是折扣因子为 $\gamma=0.9$ 时对应的价值函数。
|
||||||
|
|||||||
Reference in New Issue
Block a user