fix some errors

This commit is contained in:
qiwang067
2020-07-10 22:48:09 +08:00
parent e98e25d3f7
commit d2ced89978

View File

@@ -63,8 +63,8 @@ $$
**这个概率取决于两部分**
* 一部分是 `environment 本身的行为` environment 的 function 它内部的参数或内部的规则长什么样子。 $p(s_{t+1}|s_t,a_t)$这一项代表的是 environment environment 这一项通常你是无法控制它的,因为那个是人家写好的,你不能控制它。
* 另一部分是 $p_\theta(a_t|s_t)$你能控制的是 $p_\theta(a_t|s_t)$。给定一个 $s_t$ actor 要采取什么样的 $a_t$ 会取决于你 actor 的参数 $\theta$ 所以这部分是 actor 可以自己控制的。随着 actor 的行为不同,每个同样的 trajectory 它就会有不同的出现的概率。
* 一部分是 `environment 的行为` environment 的 function 它内部的参数或内部的规则长什么样子。 $p(s_{t+1}|s_t,a_t)$这一项代表的是 environment environment 这一项通常你是无法控制它的,因为那个是人家写好的,你不能控制它。
* 另一部分是 `agent 的行为`你能控制的是 $p_\theta(a_t|s_t)$。给定一个 $s_t$ actor 要采取什么样的 $a_t$ 会取决于你 actor 的参数 $\theta$ 所以这部分是 actor 可以自己控制的。随着 actor 的行为不同,每个同样的 trajectory 它就会有不同的出现的概率。
![](img/1.6.png)