add explanation of bias and variance
This commit is contained in:
@@ -411,6 +411,11 @@ $\varepsilon\text{-greedy}$ 的意思是说,我们有 $1-\varepsilon$ 的概
|
||||
|
||||
所以我们可以把 TD 也放到 control loop 里面去估计 Q-table,再采取这个 $\varepsilon$-greedy improvement。这样就可以在 episode 没结束的时候来更新已经采集到的状态价值。
|
||||
|
||||

|
||||
|
||||
>* **偏差(bias):**描述的是预测值(估计值)的期望与真实值之间的差距。偏差越大,越偏离真实数据,如上图第二行所示。
|
||||
>* **方差(variance):**描述的是预测值的变化范围,离散程度,也就是离其期望值的距离。方差越大,数据的分布越分散,如上图右列所示。
|
||||
|
||||
### Sarsa: On-policy TD Control
|
||||
|
||||

|
||||
@@ -564,6 +569,7 @@ Sarsa 是用自己的策略产生了 S,A,R,S',A' 这一条轨迹。然后拿着
|
||||
* [百面深度学习](https://book.douban.com/subject/35043939/)
|
||||
* [神经网络与深度学习](https://nndl.github.io/)
|
||||
* [机器学习](https://book.douban.com/subject/26708119//)
|
||||
* [Understanding the Bias-Variance Tradeoff](http://scott.fortmann-roe.com/docs/BiasVariance.html)
|
||||
|
||||
|
||||
|
||||
|
||||
BIN
docs/chapter3/img/bias_variance.png
Normal file
BIN
docs/chapter3/img/bias_variance.png
Normal file
Binary file not shown.
|
After Width: | Height: | Size: 129 KiB |
Reference in New Issue
Block a user