fix some errors

This commit is contained in:
qiwang067
2020-07-07 18:00:49 +08:00
parent 64ac258670
commit ebf7b09aeb

View File

@@ -1,12 +1,12 @@
# PPO # PPO
## On-policy and Off-policy ## From On-policy to Off-policy
在讲 PPO 之前,我们先讲一下 on-policy and off-policy 这两种 training 方法的区别。 在讲 PPO 之前,我们先讲一下 on-policy and off-policy 这两种 training 方法的区别。
在 reinforcement learning 里面我们要learn 的就是一个agent。 在 reinforcement learning 里面我们要learn 的就是一个agent。
* 如果要 learn 的 agent 跟和环境互动的 agent 是同一个的话, 这个叫做`on-policy` * 如果要 learn 的 agent 跟和环境互动的 agent 是同一个的话, 这个叫做`on-policy`
* 如果要 learn 的 agent 跟和环境互动的 agent 不是同一个的话, 那这个叫做`off-policy` * 如果要 learn 的 agent 跟和环境互动的 agent 不是同一个的话, 那这个叫做`off-policy`
比较拟人化的讲法是如果今天要学习的那个agent一边跟环境互动一边做学习这个叫on-policy。 如果它在旁边看别人玩通过看别人玩来学习的话这个叫做off-policy。 比较拟人化的讲法是如果要学习的那个 agent一边跟环境互动一边做学习这个叫 on-policy。 如果它在旁边看别人玩,通过看别人玩来学习的话,这个叫做 off-policy。
为什么我们会想要考虑 off-policy ?让我们来想想 policy gradient。Policy gradient 是 on-policy 的做法因为在做policy gradient 时我们会需要有一个agent、一个policy 和 一个actor。这个actor 先去跟环境互动去搜集资料,搜集很多的$\tau$,根据它搜集到的资料,会按照 policy gradient 的式子去 update policy 的参数。所以 policy gradient 是一个 on-policy 的 algorithm。 为什么我们会想要考虑 off-policy ?让我们来想想 policy gradient。Policy gradient 是 on-policy 的做法因为在做policy gradient 时我们会需要有一个agent、一个policy 和 一个actor。这个actor 先去跟环境互动去搜集资料,搜集很多的$\tau$,根据它搜集到的资料,会按照 policy gradient 的式子去 update policy 的参数。所以 policy gradient 是一个 on-policy 的 algorithm。