Update chapter3_questions&keywords.md

This commit is contained in:
Yiyuan Yang
2021-11-10 10:01:54 +08:00
committed by GitHub
parent 01a147e7da
commit 8e5090a653

View File

@@ -103,6 +103,6 @@
另外TD算法不需要等到实验结束后才能进行当前状态的值函数的计算与更新而蒙特卡洛的方法需要试验交互产生一整条的马尔科夫链并直到最终状态才能进行更新。TD算法和动态规划的策略评估不同之处为model-free和model-based 这一点动态规划可以凭借已知转移概率就能推断出来后续的状态情况而TD只能借助试验才能知道。
蒙特卡洛方法和TD方法的不同在于蒙特卡洛方法进行完整的采样来获取了长期的回报值因而在价值估计上会有着更小的偏差但是也正因为收集了完整的信息所以价值的方差会更大原因在于毕竟基于试验的采样得到和真实的分布还是有差距不充足的交互导致的较大方差。而TD算法与其相反因为只考虑了前一步的回报值 其他都是基于之前的估计值,因而估计具有偏差方差小。
蒙特卡洛方法和TD方法的不同在于蒙特卡洛方法进行完整的采样来获取了长期的回报值因而在价值估计上会有着更小的偏差但是也正因为收集了完整的信息所以价值的方差会更大原因在于毕竟基于试验的采样得到和真实的分布还是有差距不充足的交互导致的较大方差。而TD算法与其相反因为只考虑了前一步的回报值 其他都是基于之前的估计值,因而相对来说,其估计具有偏差方差小的特点
- 三者的联系:对于$TD(\lambda)$方法,如果 $ \lambda = 0$ 那么此时等价于TD即只考虑下一个状态如果$ \lambda = 1$等价于MC即考虑 $T-1$ 个后续状态即到整个episode序列结束。