udpate ch6

This commit is contained in:
qiwang067
2023-04-19 16:14:06 +08:00
parent 35e0ecc2aa
commit 1d8e39e0fb

View File

@@ -102,9 +102,9 @@ Q函数有一个需要注意的问题是策略 $\pi$在看到状态 $s$ 的
Q函数有两种写法 Q函数有两种写法
1如图 6.7a 所示输入是状态与动作输出就是一个标量。这种Q函数既适用于连续动作动作是无法穷举的又适用于离散动作。 1如图 6.6a 所示输入是状态与动作输出就是一个标量。这种Q函数既适用于连续动作动作是无法穷举的又适用于离散动作。
2如图 6.7b 所示输入是一个状态输出就是多个值。这种Q函数只适用于离散动作。假设动作是离散的比如动作就只有 3 个可能往左、往右或是开火。Q函数输出的 3 个值就分别代表 $a$ 是往左的时候的 Q 值,$a$ 是往右的时候的 Q 值,还有 $a$ 是开火的时候的 Q 值。 2如图 6.6b 所示输入是一个状态输出就是多个值。这种Q函数只适用于离散动作。假设动作是离散的比如动作就只有 3 个可能往左、往右或是开火。Q函数输出的 3 个值就分别代表 $a$ 是往左的时候的 Q 值,$a$ 是往右的时候的 Q 值,还有 $a$ 是开火的时候的 Q 值。