update ch4

This commit is contained in:
qiwang067
2023-03-15 21:36:30 +08:00
parent 2eb72354eb
commit 5f2cef6aee

View File

@@ -96,6 +96,8 @@ $$
\frac{\nabla p_{\theta}(\tau)}{p_{\theta}(\tau)}= \nabla \log p_{\theta}(\tau) \frac{\nabla p_{\theta}(\tau)}{p_{\theta}(\tau)}= \nabla \log p_{\theta}(\tau)
$$ $$
注:对数函数 $f(x)=\log x$ 的导数为 $\frac{1}{x}$。
如式(4.2)所示,我们对 $\tau$ 进行求和,把 $R(\tau)$ 和 $\log p_{\theta}(\tau)$ 这两项使用 $p_{\theta}(\tau)$ 进行加权, 既然使用 $p_{\theta}(\tau)$ 进行加权 ,它们就可以被写成期望的形式。也就是我们从 $p_{\theta}(\tau)$ 这个分布里面采样 $\tau$ 去计算 $R(\tau)$ 乘 $\nabla\log p_{\theta}(\tau)$,对所有可能的 $\tau$ 进行求和就是期望的值expected value 如式(4.2)所示,我们对 $\tau$ 进行求和,把 $R(\tau)$ 和 $\log p_{\theta}(\tau)$ 这两项使用 $p_{\theta}(\tau)$ 进行加权, 既然使用 $p_{\theta}(\tau)$ 进行加权 ,它们就可以被写成期望的形式。也就是我们从 $p_{\theta}(\tau)$ 这个分布里面采样 $\tau$ 去计算 $R(\tau)$ 乘 $\nabla\log p_{\theta}(\tau)$,对所有可能的 $\tau$ 进行求和就是期望的值expected value
$$ $$
\begin{aligned} \begin{aligned}
@@ -191,7 +193,7 @@ $$
如图 4.10 所示,假设我们在某一个状态有 3 个动作 a、b、c可以执行。根据式(4.6),我们要把这 3 个动作的概率,对数概率都提高。 但是它们前面的权重$R(\tau)$是不一样的。权重是有大有小的,权重小的,该动作的概率提高的就少;权重大的,该动作的概率提高的就多。 因为对数概率是一个概率,所以动作 a、b、c 的对数概率的和是 0。 所以提高少的在做完归一化normalize以后动作 b 的概率就是下降的;提高多的,该动作的概率才会上升。 如图 4.10 所示,假设我们在某一个状态有 3 个动作 a、b、c可以执行。根据式(4.6),我们要把这 3 个动作的概率,对数概率都提高。 但是它们前面的权重$R(\tau)$是不一样的。权重是有大有小的,权重小的,该动作的概率提高的就少;权重大的,该动作的概率提高的就多。 因为对数概率是一个概率,所以动作 a、b、c 的对数概率的和是 0。 所以提高少的在做完归一化normalize以后动作 b 的概率就是下降的;提高多的,该动作的概率才会上升。
<div align=center> <div align=center>
<img width="550" src="../img/ch4/4.12.png"/> <img width="550" src="../img/ch4/4.12.png"/>
</div> </div>
@@ -308,7 +310,7 @@ $$
如图 4.15 所示,手写数字识别是一个经典的多分类问题,输入是一张手写数字的图片,经过神经网络处理后,输出的是各个类别的概率。我们希望输出的概率分布尽可能地贴近真实值的概率分布。因为真实值只有一个数字 9所以如果我们用独热向量的形式给它编码也可以把真实值理解为一个概率分布9 的概率就是1其他数字的概率就是 0。神经网络的输出一开始可能会比较平均通过不断地迭代、训练优化之后我们会希望输出9 的概率可以远高于输出其他数字的概率。 如图 4.15 所示,手写数字识别是一个经典的多分类问题,输入是一张手写数字的图片,经过神经网络处理后,输出的是各个类别的概率。我们希望输出的概率分布尽可能地贴近真实值的概率分布。因为真实值只有一个数字 9所以如果我们用独热向量的形式给它编码也可以把真实值理解为一个概率分布9 的概率就是1其他数字的概率就是 0。神经网络的输出一开始可能会比较平均通过不断地迭代、训练优化之后我们会希望输出9 的概率可以远高于输出其他数字的概率。
<div align=center> <div align=center>
<img width="550" src="../img/ch4/4.23.png"/> <img width="550" src="../img/ch4/4.23.png"/>
</div> </div>