Update chapter2.md

This commit is contained in:
Yiyuan Yang
2022-10-19 15:19:22 +08:00
committed by GitHub
parent c1b5450c25
commit 7d27873ac9

View File

@@ -576,7 +576,7 @@ $$
这样迭代的式子中就只有价值函数与状态转移函数了。通过迭代式(2.19),我们也可以得到每个状态的价值。因为不管是在马尔可夫奖励过程,还是在马尔可夫决策过程中,价值函数$V$包含的变量都是只与状态有关其表示智能体进入某一个状态未来可能得到多大的价值。比如现在的环境是一个小网格世界small gridworld智能体的目的是从某一个状态开始行走然后到达终止状态它的终止状态就是左上角与右下角如图 2.18(右)所示的阴影方块)。小网格世界总共有 14 个非终止状态:$1,\cdots,14$。我们把它的每个位置用一个状态来表示。如图 2.18所示在小网格世界中智能体的策略函数直接给定了它在每一个状态都是随机行走即在每一个状态都是上、下、左、右行走采取均匀的随机策略uniform random policy$\pi(\mathrm{l} \mid .)=\pi(\mathrm{r} \mid .)=\pi(\mathrm{u} \mid .)=\pi(\mathrm{d} \mid .)=0.25$。 它在边界状态的时候比如在第4号状态的时候往左走依然留在第4号状态。我们对其加了限制这个限制就是出边界的动作不会改变状态相应概率设置为1如 $p(7\mid7,\mathrm{r})=1$。 这样迭代的式子中就只有价值函数与状态转移函数了。通过迭代式(2.19),我们也可以得到每个状态的价值。因为不管是在马尔可夫奖励过程,还是在马尔可夫决策过程中,价值函数$V$包含的变量都是只与状态有关其表示智能体进入某一个状态未来可能得到多大的价值。比如现在的环境是一个小网格世界small gridworld智能体的目的是从某一个状态开始行走然后到达终止状态它的终止状态就是左上角与右下角如图 2.18(右)所示的阴影方块)。小网格世界总共有 14 个非终止状态:$1,\cdots,14$。我们把它的每个位置用一个状态来表示。如图 2.18所示在小网格世界中智能体的策略函数直接给定了它在每一个状态都是随机行走即在每一个状态都是上、下、左、右行走采取均匀的随机策略uniform random policy$\pi(\mathrm{l} \mid .)=\pi(\mathrm{r} \mid .)=\pi(\mathrm{u} \mid .)=\pi(\mathrm{d} \mid .)=0.25$。 它在边界状态的时候比如在第4号状态的时候往左走依然留在第4号状态。我们对其加了限制这个限制就是出边界的动作不会改变状态相应概率设置为1如 $p(7\mid7,\mathrm{r})=1$。
我们给出的奖励函数就是智能体每走一步,就会得到 $-$1 的奖励,也就是到达终止状态之前每走一步获得的奖励都是 $-$1所以智能体需要尽快地到达终止状态。 我们给出的奖励函数就是智能体每走一步,就会得到 $-$1 的奖励,也就是到达终止状态之前每走一步获得的奖励都是 $-$1所以智能体需要尽快地到达终止状态。
给定动作之后状态之间的转移transition是确定的例如$p(2 \mid 6$,u$)=2$即从第6号状态往上走它就会直接到达第2号状态。很多时候有些环境是概率性的probabilistic比如智能体在第6号状态它选择往上走的时候地板可能是滑的然后它可能滑到第3号状态或者第1号状态这就是有概率的转移。但我们把环境进行了简化从6号状态往上走它就到了第2号状态。因为我们已经知道环境中的每一个概率以及概率转移所以就可以直接使用式(2.19)进行迭代,这样就会算出每一个状态的价值。 给定动作之后状态之间的转移transition是确定的例如$p(2 \mid 6$,u$)=1$即从第6号状态往上走它就会直接到达第2号状态。很多时候有些环境是概率性的probabilistic比如智能体在第6号状态它选择往上走的时候地板可能是滑的然后它可能滑到第3号状态或者第1号状态这就是有概率的转移。但我们把环境进行了简化从6号状态往上走它就到了第2号状态。因为我们已经知道环境中的每一个概率以及概率转移所以就可以直接使用式(2.19)进行迭代,这样就会算出每一个状态的价值。