update ch3

This commit is contained in:
qiwang067
2022-08-21 20:10:12 +08:00
parent e48064ebcf
commit dcbf785d16

View File

@@ -1,4 +1,4 @@
# 第 3 章表格型方法
# 第 3 章 表格型方法
策略最简单的表示是查找表look-up table即表格型策略tabular policy。使用查找表的强化学习方法称为**表格型方法tabular method**如蒙特卡洛、Q学习和Sarsa。本章通过最简单的表格型方法来讲解如何使用基于价值的方法求解强化学习问题。
@@ -646,7 +646,6 @@ Sarsa 在更新 Q 表格的时候,它用到的是 $A'$ 。我们要获取下
但是 Q学习 在更新 Q 表格的时候,它用到的是 Q 值 $Q(S',a)$ 对应的动作 ,它不一定是下一个步骤会执行的实际的动作,因为我们下一个实际会执行的那个动作可能会探索。
Q学习默认的下一个动作不是通过行为策略来选取的Q学习直接看Q表格取它的最大化的值它是默认 $A'$ 为最佳策略选取的动作,所以 Q学习 在学习的时候,不需要传入 $A'$,即 $a_{t+1}$ 的值。
>事实上Q学习算法被提出的时间更早Sarsa 算法是Q学习算法的改进。
<div align=center>
<img width="550" src="../img/ch3/3.18.png"/>