Update chapter3_questions&keywords.md

This commit is contained in:
David Young
2021-02-04 16:34:48 +08:00
committed by GitHub
parent 4d8c1886d4
commit d50b346364

View File

@@ -92,3 +92,7 @@
Q(S_t,A_t) \larr Q(S_t,A_t) + \alpha [R_{t+1}+\gamma Q(S_{t+1},A_{t+1})]
$$
- 高冷的面试官请问蒙特卡洛方法Monte Carlo AlgorithmMC和时序差分(Temporal DifferenceTD)算法是无偏估计吗?另外谁的方法更大呢?为什么呢?
蒙特卡洛方法MC是无偏估计时序差分TD是有偏估计MC的方差较大TD的方差较小原因在于TD中使用了自举bootstrapping的方法实现了基于平滑的效果导致估计的值函数的方差更小。