fix ch4_questions typos

This commit is contained in:
qiwang067
2020-09-03 20:38:15 +08:00
parent b69392085a
commit 529d364be3
2 changed files with 71 additions and 71 deletions

View File

@@ -3,7 +3,7 @@
#### 1 关键词 #### 1 关键词
- **policy策略** 每一个actor中会有对应的策略这个策略决定了actor的行为。具体来说Policy 就是给一个外界的输入,然后它会输出 actor 现在应该要执行的行为。**一般地我们将policy写成 $\pi$ 。** - **policy策略** 每一个actor中会有对应的策略这个策略决定了actor的行为。具体来说Policy 就是给一个外界的输入,然后它会输出 actor 现在应该要执行的行为。**一般地我们将policy写成 $\pi$ 。**
- **Return回报** 一个回合Episode或者试验Trial所得到的所有的reward的总和也被人们称为Total reward。**一般地,我们用 $R$ 来表示。** - **Return回报** 一个回合Episode或者试验Trial所得到的所有的reward的总和也被人们称为Total reward。**一般地,我们用 $R$ 来表示。**
- **Trajectory** 一个试验中我们将environment 输出的 $s$ 跟 actor 输出的行为 $a$,把这个 $s$ 跟 $a$ 全部串起来形成的集合我们称为Trajectory即 $\text { Trajectory } \tau=\left\{s_{1}, a_{1}, s_{2}, a_{2}, \cdots, s_{t}, a_{t}\right\}$。 - **Trajectory** 一个试验中我们将environment 输出的 $s$ 跟 actor 输出的行为 $a$,把这个 $s$ 跟 $a$ 全部串起来形成的集合我们称为Trajectory即 $\text { Trajectory } \tau=\left\{s_{1}, a_{1}, s_{2}, a_{2}, \cdots, s_{t}, a_{t}\right\}$。
- **Reward function** 根据在某一个 state 采取的某一个 action 决定说现在这个行为可以得到多少的分数,它是一个 function。也就是给一个 $s_1$$a_1$,它告诉你得到 $r_1$。给它 $s_2$ $a_2$,它告诉你得到 $r_2$。 把所有的 $r$ 都加起来,我们就得到了 $R(\tau)$ ,代表某一个 trajectory $\tau$ 的 reward。 - **Reward function** 根据在某一个 state 采取的某一个 action 决定说现在这个行为可以得到多少的分数,它是一个 function。也就是给一个 $s_1$$a_1$,它告诉你得到 $r_1$。给它 $s_2$ $a_2$,它告诉你得到 $r_2$。 把所有的 $r$ 都加起来,我们就得到了 $R(\tau)$ ,代表某一个 trajectory $\tau$ 的 reward。
- **Expected reward** $\bar{R}_{\theta}=\sum_{\tau} R(\tau) p_{\theta}(\tau)=E_{\tau \sim p_{\theta}(\tau)}[R(\tau)]$。 - **Expected reward** $\bar{R}_{\theta}=\sum_{\tau} R(\tau) p_{\theta}(\tau)=E_{\tau \sim p_{\theta}(\tau)}[R(\tau)]$。