diff --git a/docs/chapter6/chapter6.md b/docs/chapter6/chapter6.md index 464ad88..2bf52ef 100644 --- a/docs/chapter6/chapter6.md +++ b/docs/chapter6/chapter6.md @@ -102,9 +102,9 @@ Q函数有一个需要注意的问题是,策略 $\pi$在看到状态 $s$ 的 Q函数有两种写法: -(1)如图 6.7a 所示,输入是状态与动作,输出就是一个标量。这种Q函数既适用于连续动作(动作是无法穷举的),又适用于离散动作。 +(1)如图 6.6a 所示,输入是状态与动作,输出就是一个标量。这种Q函数既适用于连续动作(动作是无法穷举的),又适用于离散动作。 -(2)如图 6.7b 所示,输入是一个状态,输出就是多个值。这种Q函数只适用于离散动作。假设动作是离散的,比如动作就只有 3 个可能:往左、往右或是开火。Q函数输出的 3 个值就分别代表 $a$ 是往左的时候的 Q 值,$a$ 是往右的时候的 Q 值,还有 $a$ 是开火的时候的 Q 值。 +(2)如图 6.6b 所示,输入是一个状态,输出就是多个值。这种Q函数只适用于离散动作。假设动作是离散的,比如动作就只有 3 个可能:往左、往右或是开火。Q函数输出的 3 个值就分别代表 $a$ 是往左的时候的 Q 值,$a$ 是往右的时候的 Q 值,还有 $a$ 是开火的时候的 Q 值。