udpate
This commit is contained in:
@@ -268,8 +268,8 @@ $$
|
|||||||
第3个组成部分是模型,模型决定了下一步的状态。下一步的状态取决于当前的状态以及当前采取的动作。它由状态转移概率和奖励函数两个部分组成。状态转移概率即
|
第3个组成部分是模型,模型决定了下一步的状态。下一步的状态取决于当前的状态以及当前采取的动作。它由状态转移概率和奖励函数两个部分组成。状态转移概率即
|
||||||
$$
|
$$
|
||||||
p_{s s^{\prime}}^{a}=p\left(s_{t+1}=s^{\prime} \mid s_{t}=s, a_{t}=a\right)
|
p_{s s^{\prime}}^{a}=p\left(s_{t+1}=s^{\prime} \mid s_{t}=s, a_{t}=a\right)
|
||||||
|
|
||||||
$$
|
$$
|
||||||
|
|
||||||
奖励函数是指我们在当前状态采取了某个动作,可以得到多大的奖励,即
|
奖励函数是指我们在当前状态采取了某个动作,可以得到多大的奖励,即
|
||||||
$$
|
$$
|
||||||
R(s,a)=\mathbb{E}\left[r_{t+1} \mid s_{t}=s, a_{t}=a\right]
|
R(s,a)=\mathbb{E}\left[r_{t+1} \mid s_{t}=s, a_{t}=a\right]
|
||||||
|
|||||||
Reference in New Issue
Block a user