update ch3
This commit is contained in:
@@ -1,4 +1,4 @@
|
||||
# 第 3 章表格型方法
|
||||
# 第 3 章 表格型方法
|
||||
|
||||
策略最简单的表示是查找表(look-up table),即表格型策略(tabular policy)。使用查找表的强化学习方法称为**表格型方法(tabular method)**,如蒙特卡洛、Q学习和Sarsa。本章通过最简单的表格型方法来讲解如何使用基于价值的方法求解强化学习问题。
|
||||
|
||||
@@ -646,7 +646,6 @@ Sarsa 在更新 Q 表格的时候,它用到的是 $A'$ 。我们要获取下
|
||||
但是 Q学习 在更新 Q 表格的时候,它用到的是 Q 值 $Q(S',a)$ 对应的动作 ,它不一定是下一个步骤会执行的实际的动作,因为我们下一个实际会执行的那个动作可能会探索。
|
||||
Q学习默认的下一个动作不是通过行为策略来选取的,Q学习直接看Q表格,取它的最大化的值,它是默认 $A'$ 为最佳策略选取的动作,所以 Q学习 在学习的时候,不需要传入 $A'$,即 $a_{t+1}$ 的值。
|
||||
|
||||
>事实上,Q学习算法被提出的时间更早,Sarsa 算法是Q学习算法的改进。
|
||||
|
||||
<div align=center>
|
||||
<img width="550" src="../img/ch3/3.18.png"/>
|
||||
|
||||
Reference in New Issue
Block a user