Update chapter5_questions&keywords.md

This commit is contained in:
David Young
2021-05-11 10:12:42 +08:00
committed by GitHub
parent f4e68144ac
commit db6c4c1e3a

View File

@@ -42,7 +42,7 @@
- 高冷的面试官请问on-policy跟off-policy的区别是什么
on-policy生成样本的policyvalue function跟网络更新参数时使用的policyvalue function相同。典型为SARAS算法基于当前的policy直接执行一次动作选择然后用这个样本更新当前的policy因此生成样本的policy和学习时的policy相同算法为on-policy算法。该方法会遭遇探索-利用的矛盾,利用目前已知的最优选择可能学不到最优解收敛到局部最优而加入探索又降低了学习效率。epsilon-greedy 算法是这种矛盾下的折衷。优点是直接了当,速度快,劣势是不一定找到最优策略。
答:用一句话概括两者的区别生成样本的policyvalue-funciton和网络参数更新时的policyvalue-funciton是否相同。具体来说on-policy生成样本的policyvalue function跟网络更新参数时使用的policyvalue function相同。SARAS算法就是on-policy的基于当前的policy直接执行一次action然后用这个样本更新当前的policy因此生成样本的policy和学习时的policy相同算法为on-policy算法。该方法会遭遇探索-利用的矛盾,利用目前已知的最优选择可能学不到最优解收敛到局部最优而加入探索又降低了学习效率。epsilon-greedy 算法是这种矛盾下的折衷。优点是直接了当,速度快,劣势是不一定找到最优策略。off-policy生成样本的policyvalue function跟网络更新参数时使用的policyvalue function不同。例如Q-learning在计算下一状态的预期收益时使用了max操作直接选择最优动作而当前policy并不一定能选择到最优动作因此这里生成样本的policy和学习时的policy不同即为off-policy算法。
- 高冷的面试官请简述下PPO算法。其与TRPO算法有何关系呢?