Update chapter2_questions&keywords.md

This commit is contained in:
David Young
2021-01-27 15:32:39 +08:00
committed by GitHub
parent 0ba05af2d7
commit c012469698

View File

@@ -45,7 +45,7 @@
答:相对于 MRP马尔可夫决策过程(Markov Decision Process)多了一个 decision其它的定义跟 MRP 都是类似的。这里我们多了一个决策,多了一个 action ,那么这个状态转移也多了一个 condition就是采取某一种行为然后你未来的状态会不同。它不仅是依赖于你当前的状态也依赖于在当前状态你这个 agent 它采取的这个行为会决定它未来的这个状态走向。对于这个价值函数,它也是多了一个条件,多了一个你当前的这个行为,就是说你当前的状态以及你采取的行为会决定你在当前可能得到的奖励多少。
另外,两者之间是转换关系的。具体来说,已知一个 MDP 以及一个 policy $\pi$ 的时候,我们可以把 MDP 转换成MRP。在 MDP 里面,转移函数 $P(s'|s,a)$ 是基于它当前状态以及它当前的 action因为我们现在已知它 policy function就是说在每一个状态我们知道它可能采取的行为的概率那么就可以直接把这个 action 进行加和,那我们就可以得到对于 MRP 的一个转移,这里就没有 action。同样地对于奖励我们也可以把 action 拿掉,这样就会得到一个类似于 MRP 的奖励。
另外,两者之间是转换关系的。具体来说,已知一个 MDP 以及一个 policy $\pi$ 的时候,我们可以把 MDP 转换成MRP。在 MDP 里面,转移函数 $P(s'|s,a)$ 是基于它当前状态以及它当前的 action因为我们现在已知它 policy function就是说在每一个状态我们知道它可能采取的行为的概率那么就可以直接把这个 action 进行加和,那我们就可以得到对于 MRP 的一个转移,这里就没有 action。同样地对于奖励我们也可以把 action 拿掉,这样就会得到一个类似于 MRP 的奖励。
- MDP 里面的状态转移跟 MRP 以及 MP 的结构或者计算方面的差异?