fix some typos
This commit is contained in:
@@ -76,7 +76,7 @@ Var 是指 variance。
|
||||
|
||||
如果用 TD 的话,你是要去最小化这样的一个式子:
|
||||
|
||||

|
||||

|
||||
|
||||
在这中间会有随机性的是 r。因为计算你在 $s_t$ 采取同一个动作,你得到的奖励也不一定是一样的,所以 r 是一个随机变量。但这个随机变量的方差会比 $G_a$ 还要小,因为 $G_a$ 是很多 r 合起来,这边只是某一个 r 而已。$G_a$ 的方差会比较大,r 的方差会比较小。但是这边你会遇到的**一个问题是你这个 V 不一定估得准**。假设你的这个 V 估得是不准的,那你使用这个式子学习出来的结果,其实也会是不准的。所以 MC 跟 TD 各有优劣。**今天其实 TD 的方法是比较常见的,MC 的方法其实是比较少用的。**
|
||||
|
||||
|
||||
Reference in New Issue
Block a user