diff --git a/docs/chapter3/chapter3.md b/docs/chapter3/chapter3.md index 8ee66d6..c4b9870 100644 --- a/docs/chapter3/chapter3.md +++ b/docs/chapter3/chapter3.md @@ -411,6 +411,11 @@ $\varepsilon\text{-greedy}$ 的意思是说,我们有 $1-\varepsilon$ 的概 所以我们可以把 TD 也放到 control loop 里面去估计 Q-table,再采取这个 $\varepsilon$-greedy improvement。这样就可以在 episode 没结束的时候来更新已经采集到的状态价值。 +![](img/bias_variance.png ':size=450') + +>* **偏差(bias):**描述的是预测值(估计值)的期望与真实值之间的差距。偏差越大,越偏离真实数据,如上图第二行所示。 +>* **方差(variance):**描述的是预测值的变化范围,离散程度,也就是离其期望值的距离。方差越大,数据的分布越分散,如上图右列所示。 + ### Sarsa: On-policy TD Control ![](img/model_free_control_9.png) @@ -564,6 +569,7 @@ Sarsa 是用自己的策略产生了 S,A,R,S',A' 这一条轨迹。然后拿着 * [百面深度学习](https://book.douban.com/subject/35043939/) * [神经网络与深度学习](https://nndl.github.io/) * [机器学习](https://book.douban.com/subject/26708119//) +* [Understanding the Bias-Variance Tradeoff](http://scott.fortmann-roe.com/docs/BiasVariance.html) diff --git a/docs/chapter3/img/bias_variance.png b/docs/chapter3/img/bias_variance.png new file mode 100644 index 0000000..1014685 Binary files /dev/null and b/docs/chapter3/img/bias_variance.png differ