finish 3.1.2

2024-05-30 22:11:26 +08:00
parent 3a5a806bbd
commit 665de0cfa4
1 changed files with 5 additions and 0 deletions
--- a/docs/chapter3/3.1
+++ b/docs/chapter3/3.1
@@ -143,6 +143,11 @@ RoBERTa 使用了更大量的无监督语料进行预训练，除去 BERT 所使

 RoBERTa、BERT 和 Transformer 一样，都使用了 bpe 作为 tokenizer 的编码策略。bpe，即 Byte Pair Encoding，字节对编码，是指以子词对作为分词的单位。例如，对“Hello World”这句话，可能会切分为“Hel，lo，Wor，ld”四个子词对。而对于以字为基本单位的中文，一般会按照 字节编码进行切分。例如，在 UTF-8 编码中，“我”会被编码为“E68891”，那么在 bpe 中可能就会切分成“E68”，“891”两个字词对。

+一般来说，bpe 编码的词典越大，编码效果越好。当然，由于 Embedding 层就是把 token 从词典空间映射到隐藏空间（也就是说 Embedding 的形状为 (vocab_size, hidden_size)，越大的词表也会带来模型参数的增加。
+
+BERT 原始的 bpe 词表大小为 30K，RoBERTa 选择了 50K 大小的词表来优化模型的编码能力。
+
+通过上述三个部分的优化，RoBERTa 成功地在 BERT 架构的基础上刷新了多个下游任务的 SOTA，也一度成为 BERT 系模型最热门的预训练模型。同时，RoBERTa 的成功也证明了更大的预训练数据、更大的预训练步长的重要意义，这也是 LLM 诞生的基础之一。

 **参考资料**