Update chapter4_questions&keywords.md

This commit is contained in:
David Young
2020-09-08 09:14:35 +08:00
committed by GitHub
parent 6ef0a93232
commit d0aafaf562

View File

@@ -1,6 +1,6 @@
## Chapter4 梯度策略 # Chapter4 梯度策略
#### 1 关键词 ## 1 Keywords
- **policy策略** 每一个actor中会有对应的策略这个策略决定了actor的行为。具体来说Policy 就是给一个外界的输入,然后它会输出 actor 现在应该要执行的行为。**一般地我们将policy写成 $\pi$ 。** - **policy策略** 每一个actor中会有对应的策略这个策略决定了actor的行为。具体来说Policy 就是给一个外界的输入,然后它会输出 actor 现在应该要执行的行为。**一般地我们将policy写成 $\pi$ 。**
- **Return回报** 一个回合Episode或者试验Trial所得到的所有的reward的总和也被人们称为Total reward。**一般地,我们用 $R$ 来表示它。** - **Return回报** 一个回合Episode或者试验Trial所得到的所有的reward的总和也被人们称为Total reward。**一般地,我们用 $R$ 来表示它。**
@@ -9,7 +9,7 @@
- **Expected reward** $\bar{R}_{\theta}=\sum_{\tau} R(\tau) p_{\theta}(\tau)=E_{\tau \sim p_{\theta}(\tau)}[R(\tau)]$。 - **Expected reward** $\bar{R}_{\theta}=\sum_{\tau} R(\tau) p_{\theta}(\tau)=E_{\tau \sim p_{\theta}(\tau)}[R(\tau)]$。
- **Reinforce** 基于策略梯度的强化学习的经典算法,其采用回合更新的模式。 - **Reinforce** 基于策略梯度的强化学习的经典算法,其采用回合更新的模式。
#### 2 思考题 ## 2 Questions
- 如果我们想让机器人自己玩video game, 那么强化学习中三个组成actor、environment、reward function部分具体分别是什么 - 如果我们想让机器人自己玩video game, 那么强化学习中三个组成actor、environment、reward function部分具体分别是什么