From 7fe103be4231990faad18aa4822ee94f366e2450 Mon Sep 17 00:00:00 2001 From: Yiyuan Yang Date: Mon, 24 May 2021 15:00:25 +0800 Subject: [PATCH] Update chapter1_questions&keywords.md --- docs/chapter1/chapter1_questions&keywords.md | 1 + 1 file changed, 1 insertion(+) diff --git a/docs/chapter1/chapter1_questions&keywords.md b/docs/chapter1/chapter1_questions&keywords.md index 88d525e..4a57b13 100644 --- a/docs/chapter1/chapter1_questions&keywords.md +++ b/docs/chapter1/chapter1_questions&keywords.md @@ -74,6 +74,7 @@ - 基于策略迭代和基于价值迭代的强化学习方法有什么区别? 答: + 1. 基于策略迭代的强化学习方法,agent会制定一套动作策略(确定在给定状态下需要采取何种动作),并根据这个策略进行操作。强化学习算法直接对策略进行优化,使制定的策略能够获得最大的奖励;基于价值迭代的强化学习方法,agent不需要制定显式的策略,它维护一个价值表格或价值函数,并通过这个价值表格或价值函数来选取价值最大的动作。 2. 基于价值迭代的方法只能应用在不连续的、离散的环境下(如围棋或某些游戏领域),对于行为集合规模庞大、动作连续的场景(如机器人控制领域),其很难学习到较好的结果(此时基于策略迭代的方法能够根据设定的策略来选择连续的动作); 3. 基于价值迭代的强化学习算法有 Q-learning、 Sarsa 等,而基于策略迭代的强化学习算法有策略梯度算法等。