Update chapter1_questions&keywords.md
This commit is contained in:
@@ -96,7 +96,7 @@
|
||||
|
||||
- 高冷的面试官: 你认为强化学习与监督学习和无监督学习有什么区别?
|
||||
|
||||
答: 首先强化学习和无监督学习是不需要标签的,而监督学习需要许多有标签的样本来进行模型的构建;对于强化学习与无监督学习,无监督学习是直接对于给定的数据进行建模,寻找数据(特征)给定的隐藏的结构,而强化学习需要通过延迟奖励学习策略来得到"模型"对于正确目标的远近(通过奖励惩罚函数进行判断),这里我们可以将奖励惩罚函数视为正确目标的一个稀疏、延迟形式。另外强化学习处理的多是序列数据,其很难像监督学习的样本一样满足IID条件。
|
||||
答: 首先强化学习和无监督学习是不需要标签的,而监督学习需要许多有标签的样本来进行模型的构建;对于强化学习与无监督学习,无监督学习是直接对于给定的数据进行建模,寻找数据(特征)给定的隐藏的结构,一般对应的聚类问题,而强化学习需要通过延迟奖励学习策略来得到"模型"对于正确目标的远近(通过奖励惩罚函数进行判断),这里我们可以将奖励惩罚函数视为正确目标的一个稀疏、延迟形式。另外强化学习处理的多是序列数据,样本之间通常具有强相关性,但其很难像监督学习的样本一样满足IID条件。
|
||||
|
||||
- 高冷的面试官: 根据你上面介绍的内容,你认为强化学习的使用场景有哪些呢?
|
||||
|
||||
|
||||
Reference in New Issue
Block a user