fix some errors
This commit is contained in:
@@ -1,12 +1,12 @@
|
|||||||
# PPO
|
# PPO
|
||||||
## On-policy and Off-policy
|
## From On-policy to Off-policy
|
||||||
在讲 PPO 之前,我们先讲一下 on-policy and off-policy 这两种 training 方法的区别。
|
在讲 PPO 之前,我们先讲一下 on-policy and off-policy 这两种 training 方法的区别。
|
||||||
在 reinforcement learning 里面,我们要learn 的就是一个agent。
|
在 reinforcement learning 里面,我们要learn 的就是一个agent。
|
||||||
|
|
||||||
* 如果要 learn 的 agent 跟和环境互动的 agent 是同一个的话, 这个叫做`on-policy`。
|
* 如果要 learn 的 agent 跟和环境互动的 agent 是同一个的话, 这个叫做`on-policy`。
|
||||||
* 如果要 learn 的 agent 跟和环境互动的 agent 不是同一个的话, 那这个叫做`off-policy`。
|
* 如果要 learn 的 agent 跟和环境互动的 agent 不是同一个的话, 那这个叫做`off-policy`。
|
||||||
|
|
||||||
比较拟人化的讲法就是如果今天要学习的那个agent,一边跟环境互动,一边做学习这个叫on-policy。 如果它在旁边看别人玩,通过看别人玩来学习的话,这个叫做off-policy。
|
比较拟人化的讲法是如果要学习的那个 agent,一边跟环境互动,一边做学习这个叫 on-policy。 如果它在旁边看别人玩,通过看别人玩来学习的话,这个叫做 off-policy。
|
||||||
|
|
||||||
为什么我们会想要考虑 off-policy ?让我们来想想 policy gradient。Policy gradient 是 on-policy 的做法,因为在做policy gradient 时,我们会需要有一个agent、一个policy 和 一个actor。这个actor 先去跟环境互动去搜集资料,搜集很多的$\tau$,根据它搜集到的资料,会按照 policy gradient 的式子去 update policy 的参数。所以 policy gradient 是一个 on-policy 的 algorithm。
|
为什么我们会想要考虑 off-policy ?让我们来想想 policy gradient。Policy gradient 是 on-policy 的做法,因为在做policy gradient 时,我们会需要有一个agent、一个policy 和 一个actor。这个actor 先去跟环境互动去搜集资料,搜集很多的$\tau$,根据它搜集到的资料,会按照 policy gradient 的式子去 update policy 的参数。所以 policy gradient 是一个 on-policy 的 algorithm。
|
||||||
|
|
||||||
|
|||||||
Reference in New Issue
Block a user