diff --git a/docs/chapter9/chapter9_questions&keywords.md b/docs/chapter9/chapter9_questions&keywords.md
index ea1b2cf..979df36 100644
--- a/docs/chapter9/chapter9_questions&keywords.md
+++ b/docs/chapter9/chapter9_questions&keywords.md
@@ -69,10 +69,19 @@
       - r←γr+ri；这里 r 是 Gi 的蒙特卡洛估计。
       - 累积关于参数 θ′的梯度：$dθ←dθ+∇θ′logπθ′(ai|si)(r−Vw′(si))$;
       - 累积关于参数 w′ 的梯度：$dw←dw+2(r−Vw′(si))∇w′(r−Vw′(si))$.
-    - 分别使用 dθ以及 dw异步更新 θ以及 w。简述A3C的优势函数？
+    - 分别使用 dθ以及 dw异步更新 θ以及 w。
+    
+- 高冷的面试官：Actor-Critic两者的区别是什么？
 
+  答：Actor是策略模块，输出动作；critic是判别器，用来计算值函数。
 
-37. 答：$A(s,a)=Q(s,a)-V(s)$是为了解决value-based方法具有高变异性。它代表着与该状态下采取的平均行动相比所取得的进步。
+- 高冷的面试官：actor-critic框架中的critic起了什么作用？
+
+  答：critic表示了对于当前决策好坏的衡量。结合策略模块，当critic判别某个动作的选择时有益的，策略就更新参数以增大该动作出现的概率，反之降低动作出现的概率。
+
+- 高冷的面试官：简述A3C的优势函数？
+  
+  答：$A(s,a)=Q(s,a)-V(s)$是为了解决value-based方法具有高变异性。它代表着与该状态下采取的平均行动相比所取得的进步。
 
     - 如果 A(s,a)>0: 梯度被推向了该方向
     - 如果 A(s,a)<0: (我们的action比该state下的平均值还差) 梯度被推向了反方