Update chapter3_questions&keywords.md

This commit is contained in:
David Young
2021-02-04 17:53:25 +08:00
committed by GitHub
parent 49cb06a7a6
commit 3aa8d4daef

View File

@@ -72,8 +72,6 @@
$$ $$
Q(s, a) \larr Q(s, a) + \alpha [r(s,a) + \gamma Q(s', a') - Q(s, a)] Q(s, a) \larr Q(s, a) + \alpha [r(s,a) + \gamma Q(s', a') - Q(s, a)]
$$ $$
其为on-policy的SARSA必须执行两次动作得到 $(s,a,r,s',a') $才可以更新一次;而且 $a'$ 是在特定策略 $\pi$ 的指导下执行的动作,因此估计出来的 $Q(s,a)$ 是在该策略 $\pi$ 之下的Q-value样本生成用的 $\pi$ 和估计的 $\pi$ 是同一个因此是on-policy。 其为on-policy的SARSA必须执行两次动作得到 $(s,a,r,s',a') $才可以更新一次;而且 $a'$ 是在特定策略 $\pi$ 的指导下执行的动作,因此估计出来的 $Q(s,a)$ 是在该策略 $\pi$ 之下的Q-value样本生成用的 $\pi$ 和估计的 $\pi$ 是同一个因此是on-policy。
- 高冷的面试官请问value-based和policy-based的区别是什么 - 高冷的面试官请问value-based和policy-based的区别是什么