From 28db2b58e1f4ed8c6797058527639caf2e57130f Mon Sep 17 00:00:00 2001 From: Yiyuan Yang Date: Mon, 24 May 2021 15:05:22 +0800 Subject: [PATCH] Update chapter5_questions&keywords.md --- docs/chapter5/chapter5_questions&keywords.md | 8 +++++--- 1 file changed, 5 insertions(+), 3 deletions(-) diff --git a/docs/chapter5/chapter5_questions&keywords.md b/docs/chapter5/chapter5_questions&keywords.md index 8f43579..f260a6d 100644 --- a/docs/chapter5/chapter5_questions&keywords.md +++ b/docs/chapter5/chapter5_questions&keywords.md @@ -35,9 +35,11 @@ - 高冷的面试官:请问什么是重要性采样呀? 答:使用另外一种数据分布,来逼近所求分布的一种方法,算是一种期望修正的方法,公式是: - $$ - \int f(x) p(x) d x=\int f(x) \frac{p(x)}{q(x)} q(x) d x=E_{x \sim q}[f(x){\frac{p(x)}{q(x)}}]=E_{x \sim p}[f(x)] - $$ + $$\begin{aligned} + \int f(x) p(x) d x &= \int f(x) \frac{p(x)}{q(x)} q(x) d x \\ + &= E_{x \sim q}[f(x){\frac{p(x)}{q(x)}}] \\ + &= E_{x \sim p}[f(x)] + \end{aligned}$$ 我们在已知 $q$ 的分布后,可以使用上述公式计算出从 $p$ 分布的期望值。也就可以使用 $q$ 来对于 $p$ 进行采样了,即为重要性采样。 - 高冷的面试官:请问on-policy跟off-policy的区别是什么?