From e16f144eab03af7af5b996bdf7f7018b423553d3 Mon Sep 17 00:00:00 2001 From: qiwang067 Date: Thu, 22 Oct 2020 19:41:08 +0800 Subject: [PATCH] fix some typos --- docs/chapter3/chapter3.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/docs/chapter3/chapter3.md b/docs/chapter3/chapter3.md index 0b16ce8..e41c784 100644 --- a/docs/chapter3/chapter3.md +++ b/docs/chapter3/chapter3.md @@ -168,7 +168,7 @@ Sarsa 是一种 on-policy 策略。Sarsa 优化的是它实际执行的策略, 在 off-policy learning 的过程中,我们这些轨迹都是 behavior policy 跟环境交互产生的,产生这些轨迹后,我们使用这些轨迹来更新 target policy $\pi$。 -**off-learning policy 有很多好处:** +**Off-policy learning 有很多好处:** * 我们可以利用 exploratory policy 来学到一个最佳的策略,学习效率高; * 可以让我们学习其他 agent 的行为,模仿学习,学习人或者其他 agent 产生的轨迹;