fix ch4 typos
This commit is contained in:
@@ -235,7 +235,7 @@ $$
|
||||
|
||||
Advantage function 的意义就是,假设我们在某一个 state $s_t$ 执行某一个 action $a_t$,相较于其他可能的 action,它有多好。它在意的不是一个绝对的好,而是相对的好,即`相对优势(relative advantage)`。因为会减掉一个 b,减掉一个 baseline, 所以这个东西是相对的好,不是绝对的好。 $A^{\theta}\left(s_{t}, a_{t}\right)$ 通常可以是由一个 network estimate 出来的,这个 network 叫做 critic。
|
||||
|
||||
## REINFORCE
|
||||
## REINFORCE: Monte Carlo Policy Gradient
|
||||
|
||||

|
||||
|
||||
|
||||
Reference in New Issue
Block a user