From 36ad49b1baf4014268293eb332c79624eeb1c712 Mon Sep 17 00:00:00 2001 From: qiwang067 Date: Mon, 3 Jan 2022 19:31:23 +0800 Subject: [PATCH] fix --- docs/chapter2/chapter2.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/docs/chapter2/chapter2.md b/docs/chapter2/chapter2.md index 8295ada..18706b9 100644 --- a/docs/chapter2/chapter2.md +++ b/docs/chapter2/chapter2.md @@ -486,7 +486,7 @@ $$ 我们再看下 policy evaluation 的例子,怎么在决策过程里面计算它每一个状态的价值。 * 假设环境里面有两种动作:往左走和往右走。 -* 现在的奖励函数应该是关于动作以及状态两个变量的一个函数。但我们这里规定,不管你采取什么动作,只要到达状态 $s_1$,就有 5 的奖励。只要你到达状态 $s_7$ 了,就有 10 的奖励,中间没有任何奖励。 +* 现在的奖励函数有两个变量:动作和状态。但我们这里规定,不管你采取什么动作,只要到达状态 $s_1$,就有 5 的奖励。只要你到达状态 $s_7$ 了,就有 10 的奖励,中间没有任何奖励。 * 假设我们现在采取的一个策略,这个策略是说不管在任何状态,我们采取的策略都是往左走。假设价值折扣因子是零,那么对于确定性策略(deterministic policy),最后估算出的价值函数是一致的,即 $$