From 2603115ab631ec248a8f7b7ea20863bacea7657a Mon Sep 17 00:00:00 2001 From: qiwang067 Date: Wed, 23 Nov 2022 20:53:00 +0800 Subject: [PATCH] update ch3 --- docs/chapter3/chapter3.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/docs/chapter3/chapter3.md b/docs/chapter3/chapter3.md index 58d9537..d217513 100644 --- a/docs/chapter3/chapter3.md +++ b/docs/chapter3/chapter3.md @@ -598,7 +598,7 @@ Q学习是一种**异策略(off-policy)**算法。如图 3.31 所示,异
-
图 3.21 异策略
+
图 3.31 异策略
再例如,如图 3.32 所示,比如环境是波涛汹涌的大海,但学习策略(learning policy)太“胆小”了,无法直接与环境交互学习,所以我们有了探索策略(exploratory policy),探索策略是一个不畏风浪的海盗,它非常激进,可以在环境中探索。因此探索策略有很多经验,它可以把这些经验“写成稿子”,然后“喂”给学习策略。学习策略可以通过稿子进行学习。