Update chapter3_questions&keywords.md

2021-02-04 16:34:48 +08:00
parent 4d8c1886d4
commit d50b346364
1 changed files with 4 additions and 0 deletions
--- a/docs/chapter3/chapter3_questions&keywords.md
+++ b/docs/chapter3/chapter3_questions&keywords.md
@@ -92,3 +92,7 @@
  Q(S_t,A_t) \larr Q(S_t,A_t) + \alpha [R_{t+1}+\gamma Q(S_{t+1},A_{t+1})]
  $$
  
+- 高冷的面试官：请问蒙特卡洛方法（Monte Carlo Algorithm，MC）和时序差分(Temporal Difference，TD)算法是无偏估计吗？另外谁的方法更大呢？为什么呢？
+
+答：蒙特卡洛方法（MC）是无偏估计，时序差分（TD）是有偏估计；MC的方差较大，TD的方差较小，原因在于TD中使用了自举（bootstrapping）的方法，实现了基于平滑的效果，导致估计的值函数的方差更小。
+