From 827d2775e04a194f5d765a1cabb50080fbf86511 Mon Sep 17 00:00:00 2001 From: qiwang067 Date: Mon, 17 May 2021 08:33:33 +0800 Subject: [PATCH] fix ch2 --- docs/chapter2/chapter2.md | 4 +--- 1 file changed, 1 insertion(+), 3 deletions(-) diff --git a/docs/chapter2/chapter2.md b/docs/chapter2/chapter2.md index 2df7270..33f640a 100644 --- a/docs/chapter2/chapter2.md +++ b/docs/chapter2/chapter2.md @@ -72,9 +72,7 @@ $$ ## Markov Reward Process(MRP) -![](img/2.7.png) - -**`马尔可夫奖励过程(Markov Reward Process, MRP)` 是马尔可夫链再加上了一个奖励函数。**在 MRP 中,转移矩阵跟它的这个状态都是跟马尔可夫链一样的,多了一个`奖励函数(reward function)`。**奖励函数是一个期望**,就是说当你到达某一个状态的时候,可以获得多大的奖励,然后这里另外定义了一个 discount factor $\gamma$ 。 +**`马尔可夫奖励过程(Markov Reward Process, MRP)` 是马尔可夫链再加上了一个奖励函数。**在 MRP 中,转移矩阵和状态都是跟马尔可夫链一样的,多了一个`奖励函数(reward function)`。**奖励函数 $R$ 是一个期望**,就是说当你到达某一个状态的时候,可以获得多大的奖励,然后这里另外定义了一个 discount factor $\gamma$ 。如果状态数是有限的,$R$ 可以是一个向量。 ### Example of MRP