Update chapter3_questions&keywords.md

This commit is contained in:
David Young
2021-02-04 17:43:00 +08:00
committed by GitHub
parent af67b34d42
commit a4fd030699

View File

@@ -96,3 +96,16 @@
蒙特卡洛方法MC是无偏估计时序差分TD是有偏估计MC的方差较大TD的方差较小原因在于TD中使用了自举bootstrapping的方法实现了基于平滑的效果导致估计的值函数的方差更小。
- 高冷的面试官:能否简单说下动态规划、蒙特卡洛和时序差分的异同点?
答:
- 相同点:都用于进行值函数的描述与更新,并且所有方法都是基于对未来事件的展望来计算一个回溯值。
- 不同点蒙特卡洛和TD算法隶属于model-free而动态规划属于model-basedTD算法和蒙特卡洛的方法因为都是基于model-free的方法因而对于后续状态的获知也都是基于试验的方法TD算法和动态规划的策略评估都能基于当前状态的下一步预测情况来得到对于当前状态的值函数的更新。
另外TD算法不需要等到实验结束后才能进行当前状态的值函数的计算与更新而蒙特卡洛的方法需要试验交互产生一整条的马尔科夫链并直到最终状态才能进行更新。TD算法和动态规划的策略评估不同之处为model-free和model-based 这一点动态规划可以凭借已知转移概率就能推断出来后续的状态情况而TD只能借助试验才能知道。
蒙特卡洛方法和TD方法的不同在于蒙特卡洛方法进行完整的采样来获取了长期的回报值因而在价值估计上会有着更小的偏差但是也正因为收集了完整的信息所以价值的方差会更大原因在于毕竟基于试验的采样得到和真实的分布还是有差距不充足的交互导致的较大方差。而TD算法与其相反因为只考虑了前一步的回报值 其他都是基于之前的估计值,因而估计具有偏差但方差较小。
- 三者的联系:对于$TD(\lambda)$方法,如果 $ \lambda = 0$ 那么此时等价于TD即只考虑下一个状态如果$ \lambda = 1$等价于MC即考虑 $T-1$ 个后续状态即到整个episode序列结束。