Merge branch 'master' of https://github.com/datawhalechina/easy-rl

2021-12-21 20:14:16 +08:00
parent 3b712e8815 008c559f9c
commit c257313d5b
2 changed files with 3 additions and 2 deletions
--- a/docs/chapter1/chapter1.md
+++ b/docs/chapter1/chapter1.md
@@ -97,7 +97,8 @@
 * 传统的计算机视觉由两个过程组成。
  * 给定一张图，我们先要提取它的特征，用一些设计好的特征(feature)，比如说 HOG、DPM。
  * 提取这些特征后，我们再单独训练一个分类器。这个分类器可以是 SVM、Boosting，然后就可以辨别这张图片是狗还是猫。 
-* 2012 年过后，我们有了卷积神经网络，大家就把特征提取以及分类两者合到一块儿去了，就是训练一个神经网络。这个神经网络既可以做特征提取，也可以做分类。它可以实现这种端到端的训练，它里面的参数可以在每一个阶段都得到极大的优化，这样就得到了一个非常重要的突破。
+* 2012年，Krizhevsky等人提出了AlexNet，AlexNet在ImageNet分类比赛中取得冠军，迅速引起了人们对于卷积神经网络的广泛关注。
+大家就把特征提取以及分类两者合到一块儿去了，就是训练一个神经网络。这个神经网络既可以做特征提取，也可以做分类。它可以实现这种端到端的训练，它里面的参数可以在每一个阶段都得到极大的优化，这样就得到了一个非常重要的突破。

 ![](img/1.15.png ':size=500')

--- a/docs/chapter4/chapter4_questions&keywords.md
+++ b/docs/chapter4/chapter4_questions&keywords.md
@@ -7,7 +7,7 @@
 - **Trajectory：** 一个试验中我们将environment 输出的 $s$ 跟 actor 输出的行为 $a$，把这个 $s$ 跟 $a$ 全部串起来形成的集合，我们称为Trajectory，即 $\text { Trajectory } \tau=\left\{s_{1}, a_{1}, s_{2}, a_{2}, \cdots, s_{t}, a_{t}\right\}$。
 - **Reward function：** 根据在某一个 state 采取的某一个 action 决定说现在这个行为可以得到多少的分数，它是一个 function。也就是给一个 $s_1$，$a_1$，它告诉你得到 $r_1$。给它 $s_2$ ，$a_2$，它告诉你得到 $r_2$。 把所有的 $r$ 都加起来，我们就得到了 $R(\tau)$ ，代表某一个 trajectory $\tau$ 的 reward。
 - **Expected reward：** $\bar{R}_{\theta}=\sum_{\tau} R(\tau) p_{\theta}(\tau)=E_{\tau \sim p_{\theta}(\tau)}[R(\tau)]$。
- **Reinforce：** 基于策略梯度的强化学习的经典算法，其采用回合更新的模式。
+- **REINFORCE：** 基于策略梯度的强化学习的经典算法，其采用回合更新的模式。

 ## 2 Questions