Update chapter9_questions&keywords.md

This commit is contained in:
David Young
2021-02-07 23:07:24 +08:00
committed by GitHub
parent 834c263f6c
commit 5f38a353a2

View File

@@ -69,10 +69,19 @@
- r←γr+ri这里 r 是 Gi 的蒙特卡洛估计。
- 累积关于参数 θ′的梯度:$dθ←dθ+∇θlogπθ(ai|si)(rVw(si))$;
- 累积关于参数 w 的梯度:$dw←dw+2(rVw(si))∇w(rVw(si))$.
- 分别使用 dθ以及 dw异步更新 θ以及 w。简述A3C的优势函数
- 分别使用 dθ以及 dw异步更新 θ以及 w。
- 高冷的面试官Actor-Critic两者的区别是什么
Actor是策略模块输出动作critic是判别器用来计算值函数。
37. 答:$A(s,a)=Q(s,a)-V(s)$是为了解决value-based方法具有高变异性。它代表着与该状态下采取的平均行动相比所取得的进步。
- 高冷的面试官actor-critic框架中的critic起了什么作用
critic表示了对于当前决策好坏的衡量。结合策略模块当critic判别某个动作的选择时有益的策略就更新参数以增大该动作出现的概率反之降低动作出现的概率。
- 高冷的面试官简述A3C的优势函数
答:$A(s,a)=Q(s,a)-V(s)$是为了解决value-based方法具有高变异性。它代表着与该状态下采取的平均行动相比所取得的进步。
- 如果 A(s,a)>0: 梯度被推向了该方向
- 如果 A(s,a)<0: (我们的action比该state下的平均值还差) 梯度被推向了反方