udpate ch6

2023-04-19 16:14:06 +08:00
parent 35e0ecc2aa
commit 1d8e39e0fb
1 changed files with 2 additions and 2 deletions
@@ -102,9 +102,9 @@ Q函数有一个需要注意的问题是，策略 $\pi$在看到状态 $s$ 的
 Q函数有两种写法：
-（1）如图 6.7a 所示，输入是状态与动作，输出就是一个标量。这种Q函数既适用于连续动作（动作是无法穷举的），又适用于离散动作。
+（1）如图 6.6a 所示，输入是状态与动作，输出就是一个标量。这种Q函数既适用于连续动作（动作是无法穷举的），又适用于离散动作。
-（2）如图 6.7b 所示，输入是一个状态，输出就是多个值。这种Q函数只适用于离散动作。假设动作是离散的，比如动作就只有 3 个可能：往左、往右或是开火。Q函数输出的 3 个值就分别代表 $a$ 是往左的时候的 Q 值，$a$ 是往右的时候的 Q 值，还有 $a$ 是开火的时候的 Q 值。
+（2）如图 6.6b 所示，输入是一个状态，输出就是多个值。这种Q函数只适用于离散动作。假设动作是离散的，比如动作就只有 3 个可能：往左、往右或是开火。Q函数输出的 3 个值就分别代表 $a$ 是往左的时候的 Q 值，$a$ 是往右的时候的 Q 值，还有 $a$ 是开火的时候的 Q 值。