This commit is contained in:
qiwang067
2021-07-19 18:40:26 +08:00
parent 2831909eec
commit 70330c7bb6

View File

@@ -66,7 +66,7 @@ MDP 就是序列决策这样一个经典的表达方式。MDP 也是强化学习
**如果 `Q 表格`是一张已经训练好的表格的话,那这一张表格就像是一本生活手册。**我们就知道在熊发怒的时候,装死的价值会高一点。在熊离开的时候,我们可能偷偷逃跑的会比较容易获救。 **如果 `Q 表格`是一张已经训练好的表格的话,那这一张表格就像是一本生活手册。**我们就知道在熊发怒的时候,装死的价值会高一点。在熊离开的时候,我们可能偷偷逃跑的会比较容易获救。
这张表格里面 Q 函数的意义就是我选择了这个动作之后,最后面能不能成功,就是我需要去计算在这个状态下,我选择了这个动作,后续能够一共拿到多少总收益。如果可以预估未来的总收益的大小,我们当然知道在当前的这个状态下选择哪个动作,价值更高。我选择某个动作是因为我未来可以拿到的那个价值会更高一点。所以强化学习的目标导向性很强,环境给出的 reward 是一个非常重要的反馈,它就是根据环境的 reward 来去做选择。 这张表格里面 Q 函数的意义就是我选择了这个动作之后,最后面能不能成功,就是我需要去计算在这个状态下,我选择了这个动作,后续能够一共拿到多少总收益。如果可以预估未来的总收益的大小,我们当然知道在当前的这个状态下选择哪个动作,价值更高。我选择某个动作是因为我未来可以拿到的那个价值会更高一点。所以强化学习的目标导向性很强,环境给出的奖励是一个非常重要的反馈,它就是根据环境的奖励来去做选择。
![](img/3.5.png)Q: 为什么可以用未来的总收益来评价当前这个动作是好是坏? ![](img/3.5.png)Q: 为什么可以用未来的总收益来评价当前这个动作是好是坏?
@@ -489,7 +489,7 @@ Sarsa 是一种 on-policy 策略。Sarsa 优化的是它实际执行的策略,
![](img/off_policy_learning.png) ![](img/off_policy_learning.png)
再举个例子,如上图所示,比如环境是一个波涛汹涌的大海,但 learning policy 胆小,没法直接跟环境去学习,所以我们有了 exploratory policyexploratory policy 是一个不畏风浪的海盗,他非常激进,可以在环境中探索。他有很多经验,可以把这些经验写成稿子,然后喂给这个 learning policy。Learning policy 可以通过这个稿子来进行学习。 再举个例子,如上图所示,比如环境是一个波涛汹涌的大海,但 learning policy 胆小,没法直接跟环境去学习,所以我们有了 exploratory policyexploratory policy 是一个不畏风浪的海盗,他非常激进,可以在环境中探索。他有很多经验,可以把这些经验写成稿子,然后喂给这个 learning policy。Learning policy 可以通过这个稿子来进行学习。
在 off-policy learning 的过程中,我们这些轨迹都是 behavior policy 跟环境交互产生的,产生这些轨迹后,我们使用这些轨迹来更新 target policy $\pi$。 在 off-policy learning 的过程中,我们这些轨迹都是 behavior policy 跟环境交互产生的,产生这些轨迹后,我们使用这些轨迹来更新 target policy $\pi$。