From d2ced89978a692b2062c1190dc61cf992dc1eacb Mon Sep 17 00:00:00 2001
From: qiwang067 <qiwang067@163.com>
Date: Fri, 10 Jul 2020 22:48:09 +0800
Subject: [PATCH] fix some errors

---
 docs/chapter1/chapter1.md | 4 ++--
 1 file changed, 2 insertions(+), 2 deletions(-)

diff --git a/docs/chapter1/chapter1.md b/docs/chapter1/chapter1.md
index 306fba4..4c4f99c 100644
--- a/docs/chapter1/chapter1.md
+++ b/docs/chapter1/chapter1.md
@@ -63,8 +63,8 @@ $$
 
 **这个概率取决于两部分**， 
 
-* 一部分是 `environment 本身的行为`， environment 的 function 它内部的参数或内部的规则长什么样子。 $p(s_{t+1}|s_t,a_t)$这一项代表的是 environment， environment 这一项通常你是无法控制它的，因为那个是人家写好的，你不能控制它。
-* 另一部分是 $p_\theta(a_t|s_t)$，你能控制的是 $p_\theta(a_t|s_t)$。给定一个 $s_t$， actor 要采取什么样的 $a_t$ 会取决于你 actor 的参数 $\theta$， 所以这部分是 actor 可以自己控制的。随着 actor 的行为不同，每个同样的 trajectory， 它就会有不同的出现的概率。
+* 一部分是 `environment 的行为`， environment 的 function 它内部的参数或内部的规则长什么样子。 $p(s_{t+1}|s_t,a_t)$这一项代表的是 environment， environment 这一项通常你是无法控制它的，因为那个是人家写好的，你不能控制它。
+* 另一部分是 `agent 的行为`。你能控制的是 $p_\theta(a_t|s_t)$。给定一个 $s_t$， actor 要采取什么样的 $a_t$ 会取决于你 actor 的参数 $\theta$， 所以这部分是 actor 可以自己控制的。随着 actor 的行为不同，每个同样的 trajectory， 它就会有不同的出现的概率。
 
 
 ![](img/1.6.png)