udpate ch6
This commit is contained in:
@@ -102,9 +102,9 @@ Q函数有一个需要注意的问题是,策略 $\pi$在看到状态 $s$ 的
|
|||||||
|
|
||||||
Q函数有两种写法:
|
Q函数有两种写法:
|
||||||
|
|
||||||
(1)如图 6.7a 所示,输入是状态与动作,输出就是一个标量。这种Q函数既适用于连续动作(动作是无法穷举的),又适用于离散动作。
|
(1)如图 6.6a 所示,输入是状态与动作,输出就是一个标量。这种Q函数既适用于连续动作(动作是无法穷举的),又适用于离散动作。
|
||||||
|
|
||||||
(2)如图 6.7b 所示,输入是一个状态,输出就是多个值。这种Q函数只适用于离散动作。假设动作是离散的,比如动作就只有 3 个可能:往左、往右或是开火。Q函数输出的 3 个值就分别代表 $a$ 是往左的时候的 Q 值,$a$ 是往右的时候的 Q 值,还有 $a$ 是开火的时候的 Q 值。
|
(2)如图 6.6b 所示,输入是一个状态,输出就是多个值。这种Q函数只适用于离散动作。假设动作是离散的,比如动作就只有 3 个可能:往左、往右或是开火。Q函数输出的 3 个值就分别代表 $a$ 是往左的时候的 Q 值,$a$ 是往右的时候的 Q 值,还有 $a$ 是开火的时候的 Q 值。
|
||||||
|
|
||||||
|
|
||||||
|
|
||||||
|
|||||||
Reference in New Issue
Block a user