diff --git a/docs/chapter9/chapter9_questions&keywords.md b/docs/chapter9/chapter9_questions&keywords.md index ea1b2cf..979df36 100644 --- a/docs/chapter9/chapter9_questions&keywords.md +++ b/docs/chapter9/chapter9_questions&keywords.md @@ -69,10 +69,19 @@ - r←γr+ri;这里 r 是 Gi 的蒙特卡洛估计。 - 累积关于参数 θ′的梯度:$dθ←dθ+∇θ′logπθ′(ai|si)(r−Vw′(si))$; - 累积关于参数 w′ 的梯度:$dw←dw+2(r−Vw′(si))∇w′(r−Vw′(si))$. - - 分别使用 dθ以及 dw异步更新 θ以及 w。简述A3C的优势函数? + - 分别使用 dθ以及 dw异步更新 θ以及 w。 + +- 高冷的面试官:Actor-Critic两者的区别是什么? + 答:Actor是策略模块,输出动作;critic是判别器,用来计算值函数。 -37. 答:$A(s,a)=Q(s,a)-V(s)$是为了解决value-based方法具有高变异性。它代表着与该状态下采取的平均行动相比所取得的进步。 +- 高冷的面试官:actor-critic框架中的critic起了什么作用? + + 答:critic表示了对于当前决策好坏的衡量。结合策略模块,当critic判别某个动作的选择时有益的,策略就更新参数以增大该动作出现的概率,反之降低动作出现的概率。 + +- 高冷的面试官:简述A3C的优势函数? + + 答:$A(s,a)=Q(s,a)-V(s)$是为了解决value-based方法具有高变异性。它代表着与该状态下采取的平均行动相比所取得的进步。 - 如果 A(s,a)>0: 梯度被推向了该方向 - 如果 A(s,a)<0: (我们的action比该state下的平均值还差) 梯度被推向了反方