Update chapter9_questions&keywords.md
This commit is contained in:
@@ -69,10 +69,19 @@
|
||||
- r←γr+ri;这里 r 是 Gi 的蒙特卡洛估计。
|
||||
- 累积关于参数 θ′的梯度:$dθ←dθ+∇θ′logπθ′(ai|si)(r−Vw′(si))$;
|
||||
- 累积关于参数 w′ 的梯度:$dw←dw+2(r−Vw′(si))∇w′(r−Vw′(si))$.
|
||||
- 分别使用 dθ以及 dw异步更新 θ以及 w。简述A3C的优势函数?
|
||||
- 分别使用 dθ以及 dw异步更新 θ以及 w。
|
||||
|
||||
- 高冷的面试官:Actor-Critic两者的区别是什么?
|
||||
|
||||
答:Actor是策略模块,输出动作;critic是判别器,用来计算值函数。
|
||||
|
||||
37. 答:$A(s,a)=Q(s,a)-V(s)$是为了解决value-based方法具有高变异性。它代表着与该状态下采取的平均行动相比所取得的进步。
|
||||
- 高冷的面试官:actor-critic框架中的critic起了什么作用?
|
||||
|
||||
答:critic表示了对于当前决策好坏的衡量。结合策略模块,当critic判别某个动作的选择时有益的,策略就更新参数以增大该动作出现的概率,反之降低动作出现的概率。
|
||||
|
||||
- 高冷的面试官:简述A3C的优势函数?
|
||||
|
||||
答:$A(s,a)=Q(s,a)-V(s)$是为了解决value-based方法具有高变异性。它代表着与该状态下采取的平均行动相比所取得的进步。
|
||||
|
||||
- 如果 A(s,a)>0: 梯度被推向了该方向
|
||||
- 如果 A(s,a)<0: (我们的action比该state下的平均值还差) 梯度被推向了反方
|
||||
|
||||
Reference in New Issue
Block a user