update ch1

This commit is contained in:
qiwang067
2022-06-24 15:42:11 +08:00
parent 5ded4f6cbf
commit c4382f5142

View File

@@ -10,7 +10,7 @@
### 1.1.1 强化学习与监督学习
我们可以把强化学习与监督学习做一个对比。以图片分类为例,如图 1.2 所示监督学习supervised learning假设我们有大量被标注的数据比如汽车、飞机、椅子这些被标注的图片这些图片都要满足独立同分布即它们之间是没有关联关系的。假设我们训练一个分类器比如神经网络。为了分辨输入的 图片中是汽车还是飞机,在训练过程中,需要把正确的标签信息传递给神经网络。 当神经网络做出错误的预测时比如输入汽车的图片它预测出来是飞机我们就会直接告诉它该预测是错误的正确的标签应该是汽车。最后我们根据类似错误写出一个损失函数loss function通过反向传播back propagation来训练神经网络。
我们可以把强化学习与监督学习做一个对比。以图片分类为例,如图 1.2 所示,**监督学习supervised learning**假设我们有大量被标注的数据,比如汽车、飞机、椅子这些被标注的图片,这些图片都要满足独立同分布,即它们之间是没有关联关系的。假设我们训练一个分类器,比如神经网络。为了分辨输入的 图片中是汽车还是飞机,在训练过程中,需要把正确的标签信息传递给神经网络。 当神经网络做出错误的预测时比如输入汽车的图片它预测出来是飞机我们就会直接告诉它该预测是错误的正确的标签应该是汽车。最后我们根据类似错误写出一个损失函数loss function通过反向传播back propagation来训练神经网络。
<div align=center>
<img width="650" src="../img/ch1/1.2.png"/>