add REINFORCE and

This commit is contained in:
qiwang067
2020-07-23 20:57:16 +08:00
parent db49488796
commit ca0883e6e7
12 changed files with 61 additions and 12 deletions

View File

@@ -95,18 +95,6 @@ $$
所以不同的方法考虑了不同的假设,运算结果不同。
举个例子来解释时序差分强化学习和蒙特卡洛强化学习的区别,
* 时序差分强化学习是指在不清楚马尔可夫状态转移概率的情况下,以采样的方式得到不完整的状态序列,估计某状态在该状态序列完整后可能得到的收益,并通过不断地采样持续更新价值。
* 蒙特卡洛强化学习则需要经历完整的状态序列后,再来更新状态的真实价值。
例如,你想获得开车去公司的时间,每天上班开车的经历就是一次采样。假设今天在路口 A 遇到了堵车,
* 时序差分强化学习会在路口 A 就开始更新预计到达路口 B、路口 C $\cdots \cdots$, 以及到达公司的时间;
* 而蒙特卡洛强化学习并不会立即更新时间,而是在到达公司后,再修改到达每个路口和公司的时间。
时序差分强化学习能够在知道结果之前就开始学习,相比蒙特卡洛强化学习,其更快速、灵活。
## State-action Value Function
![](img/5.7.png)