fix some errors
This commit is contained in:
@@ -4,7 +4,9 @@
|
||||
|
||||

|
||||
|
||||
Q-learning 是 `value-based` 的方法。在 value based 的方法里面,我们 learn 的不是 policy,我们要 learn 的是一个 `critic`。Critic 并不直接采取行为,它想要做的事情是评价现在的行为有多好或者是有多不好。假设有一个 actor $\pi$ ,那 critic 的工作就是来评价这个 actor $\pi$ 做得有多好或者有多不好。举例来说,有一种 actor 叫做 `state value function`。state value function 的意思就是说,假设 actor 叫做 $\pi$,拿 $\pi$ 跟环境去做互动。假设 $\pi$ 看到了某一个state s,如果在玩 Atari 游戏的话,state s 是某一个画面,看到某一个画面的时候,接下来一直玩到游戏结束,累积的 reward 的期望值有多大。所以 $V^{\pi}$ 是一个function,这个 function input 一个 state,然后它会 output 一个 scalar。这个 scalar 代表说,$\pi$ 这个 actor 看到 state s 的时候,接下来预期到游戏结束的时候,它可以得到多大的 value。
|
||||
Q-learning 是 `value-based` 的方法。在 value based 的方法里面,我们 learn 的不是 policy,我们要 learn 的是一个 `critic`。Critic 并不直接采取行为,它想要做的事情是评价现在的行为有多好或者是有多不好。假设有一个 actor $\pi$ ,那 critic 的工作就是来评价这个 actor $\pi$ 做得有多好或者有多不好。
|
||||
|
||||
举例来说,有一种 critic 叫做 `state value function`。State value function 的意思就是说,假设 actor 叫做 $\pi$,拿 $\pi$ 跟环境去做互动。假设 $\pi$ 看到了某一个state s,如果在玩 Atari 游戏的话,state s 是某一个画面,看到某一个画面的时候,接下来一直玩到游戏结束,累积的 reward 的期望值有多大。所以 $V^{\pi}$ 是一个function,这个 function input 一个 state,然后它会 output 一个 scalar。这个 scalar 代表说,$\pi$ 这个 actor 看到 state s 的时候,接下来预期到游戏结束的时候,它可以得到多大的 value。
|
||||
|
||||
举个例子,假设你是玩 space invader 的话,
|
||||
|
||||
@@ -79,8 +81,10 @@ $$
|
||||
|
||||
还有另外一种critic,这种critic 叫做 `Q-function`。它又叫做`state-action value function`。
|
||||
|
||||
刚才的 state function,它的 input 是一个 state,它是根据 state 去计算出,看到这个state 以后的 expected accumulated reward 是多少。这个 state-action value function 的 input 不是 state,它是一个 state 跟 action 的 pair,它的意思是说,在某一个 state 采取某一个action,假设我们都使用 actor $\pi$ ,得到的 accumulated reward 的期望值有多大。
|
||||
Q-function 有一个需要注意的问题是,这个 actor $\pi$,在看到 state s 的时候,它采取的 action 不一定是 a。Q-function 的假设是说,假设在 state s 强制采取 action a。不管你现在考虑的这个actor $\pi$, 它会不会采取action a,这不重要。在state s 强制采取 action a。接下来都用 actor $\pi$ 继续玩下去,就只有在 state s,我们才强制一定要采取action a,接下来就进入自动模式,让actor $\pi$ 继续玩下去,得到的 expected reward 才是$Q^{\pi}(s,a)$。
|
||||
* state value function 的 input 是一个 state,它是根据 state 去计算出,看到这个state 以后的 expected accumulated reward 是多少。
|
||||
* state-action value function 的 input 是一个 state 跟 action 的 pair,它的意思是说,在某一个 state 采取某一个action,假设我们都使用 actor $\pi$ ,得到的 accumulated reward 的期望值有多大。
|
||||
|
||||
Q-function 有一个需要注意的问题是,这个 actor $\pi$,在看到 state s 的时候,它采取的 action 不一定是 a。Q-function 假设在 state s 强制采取 action a。不管你现在考虑的这个actor $\pi$, 它会不会采取action a,这不重要。在state s 强制采取 action a。接下来都用 actor $\pi$ 继续玩下去,就只有在 state s,我们才强制一定要采取action a,接下来就进入自动模式,让actor $\pi$ 继续玩下去,得到的 expected reward 才是$Q^{\pi}(s,a)$。
|
||||
|
||||
Q-function 有两种写法:
|
||||
|
||||
|
||||
Reference in New Issue
Block a user