fix some errors
This commit is contained in:
@@ -177,13 +177,13 @@ POMDP 可以用一个 7 元组描述:$(S,A,T,R,\Omega,O,\gamma)$,其中 $S$
|
||||
|
||||
Policy 就是决定了这个 agent 的行为,它其实是一个函数,把输入的状态变成行为。所以这里有有两种 policy。
|
||||
|
||||
* 一种是 `stochastic policy(随机性策略)`,它就是 $\pi$ 函数 $\pi(a | s)=P\left[A_{t}=a | S_{t}=s\right]$ ,当你输入一个状态 s 的时候,它输出其实是一个概率。这概率就是你所有行为的一个概率,然后你可以进一步对这个概率分布进行采样,然后得到真实的你采取的行为。比如说这个概率可能是有 70% 的概率往左,30% 的概率往右,那么你通过采样就可以得到一个 action。
|
||||
* 一种是 `stochastic policy(随机性策略)`,它就是 $\pi$ 函数 $\pi(a | s)=P\left[A_{t}=a | S_{t}=s\right]$ 。当你输入一个状态 s 的时候,输出是一个概率。这概率就是你所有行为的一个概率,然后你可以进一步对这个概率分布进行采样,得到真实的你采取的行为。比如说这个概率可能是有 70% 的概率往左,30% 的概率往右,那么你通过采样就可以得到一个 action。
|
||||
|
||||
* 一种是 `deterministic policy(确定性策略)`,就是说你这里有可能只是采取它的极大化,采取最有可能的概率。所以你现在这个概率就是事先决定好的。
|
||||
|
||||
从 Atari 游戏的来看的话,policy function 的输入就是一游戏的一帧,然后它的输出决定你是往左走或者是往右走。
|
||||
|
||||
通常情况下,强化学习一般使用`随机性策略`。随机性策略可以有很多优点:
|
||||
通常情况下,强化学习一般使用`随机性策略`。随机性策略有很多优点:
|
||||
|
||||
* 在学习时可以通过引入一定随机性更好地探索环境;
|
||||
|
||||
@@ -203,8 +203,6 @@ Policy 就是决定了这个 agent 的行为,它其实是一个函数,把输
|
||||

|
||||
然后这里第三个组成部分是这个模型,模型决定了下一个状态会是什么样的,就是说下一步的状态取决于你当前的状态以及你当前采取的行为。然后它由两个部分组成,一个是 Probability,它这个转移状态之间是怎么转移的。另外一个模型的是这个奖励函数,当你在当前状态采取了某一个行为可以得到多大的奖励。
|
||||
|
||||
|
||||
|
||||

|
||||
|
||||
当我们有了这三个成分过后,然后其实就形成了一个 `Markov Decision Process`。这个决策过程可视化了状态之间的转移以及我们采取的行为。
|
||||
|
||||
Reference in New Issue
Block a user