add explanation of bias and variance

This commit is contained in:
qiwang067
2020-11-15 11:07:12 +08:00
parent 1912ffe650
commit be103b9dbe
2 changed files with 6 additions and 0 deletions

View File

@@ -411,6 +411,11 @@ $\varepsilon\text{-greedy}$ 的意思是说,我们有 $1-\varepsilon$ 的概
所以我们可以把 TD 也放到 control loop 里面去估计 Q-table再采取这个 $\varepsilon$-greedy improvement。这样就可以在 episode 没结束的时候来更新已经采集到的状态价值。
![](img/bias_variance.png ':size=450')
>* **偏差(bias)**描述的是预测值(估计值)的期望与真实值之间的差距。偏差越大,越偏离真实数据,如上图第二行所示。
>* **方差(variance)**描述的是预测值的变化范围,离散程度,也就是离其期望值的距离。方差越大,数据的分布越分散,如上图右列所示。
### Sarsa: On-policy TD Control
![](img/model_free_control_9.png)
@@ -564,6 +569,7 @@ Sarsa 是用自己的策略产生了 S,A,R,S',A' 这一条轨迹。然后拿着
* [百面深度学习](https://book.douban.com/subject/35043939/)
* [神经网络与深度学习](https://nndl.github.io/)
* [机器学习](https://book.douban.com/subject/26708119//)
* [Understanding the Bias-Variance Tradeoff](http://scott.fortmann-roe.com/docs/BiasVariance.html)