From c924a02be9ed9876bcce4600a47bd9cf4e79fe7c Mon Sep 17 00:00:00 2001 From: qiwang067 Date: Thu, 23 Jun 2022 22:25:43 +0800 Subject: [PATCH] udpate --- docs/chapter1/chapter1.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/docs/chapter1/chapter1.md b/docs/chapter1/chapter1.md index 70a9d42..0db228d 100644 --- a/docs/chapter1/chapter1.md +++ b/docs/chapter1/chapter1.md @@ -268,8 +268,8 @@ $$ 第3个组成部分是模型,模型决定了下一步的状态。下一步的状态取决于当前的状态以及当前采取的动作。它由状态转移概率和奖励函数两个部分组成。状态转移概率即 $$ p_{s s^{\prime}}^{a}=p\left(s_{t+1}=s^{\prime} \mid s_{t}=s, a_{t}=a\right) - $$ + 奖励函数是指我们在当前状态采取了某个动作,可以得到多大的奖励,即 $$ R(s,a)=\mathbb{E}\left[r_{t+1} \mid s_{t}=s, a_{t}=a\right]