fix some typos
This commit is contained in:
@@ -1,7 +1,7 @@
|
|||||||
# PPO
|
# PPO
|
||||||
## From On-policy to Off-policy
|
## From On-policy to Off-policy
|
||||||
在讲 PPO 之前,我们先讲一下 on-policy 和 off-policy 这两种 training 方法的区别。
|
在讲 PPO 之前,我们先讲一下 on-policy 和 off-policy 这两种 training 方法的区别。
|
||||||
在 reinforcement learning 里面,我们要 learn 的就是一个agent。
|
在 reinforcement learning 里面,我们要 learn 的就是一个 agent。
|
||||||
|
|
||||||
* 如果要 learn 的 agent 跟和环境互动的 agent 是同一个的话, 这个叫做`on-policy(同策略)`。
|
* 如果要 learn 的 agent 跟和环境互动的 agent 是同一个的话, 这个叫做`on-policy(同策略)`。
|
||||||
* 如果要 learn 的 agent 跟和环境互动的 agent 不是同一个的话, 那这个叫做`off-policy(异策略)`。
|
* 如果要 learn 的 agent 跟和环境互动的 agent 不是同一个的话, 那这个叫做`off-policy(异策略)`。
|
||||||
|
|||||||
Reference in New Issue
Block a user