finish 3.1.2

This commit is contained in:
logan
2024-05-30 22:11:26 +08:00
parent 3a5a806bbd
commit 665de0cfa4

View File

@@ -143,6 +143,11 @@ RoBERTa 使用了更大量的无监督语料进行预训练,除去 BERT 所使
RoBERTa、BERT 和 Transformer 一样,都使用了 bpe 作为 tokenizer 的编码策略。bpe即 Byte Pair Encoding字节对编码是指以子词对作为分词的单位。例如对“Hello World”这句话可能会切分为“HelloWorld”四个子词对。而对于以字为基本单位的中文一般会按照 字节编码进行切分。例如,在 UTF-8 编码中“我”会被编码为“E68891”那么在 bpe 中可能就会切分成“E68”“891”两个字词对。
一般来说bpe 编码的词典越大,编码效果越好。当然,由于 Embedding 层就是把 token 从词典空间映射到隐藏空间(也就是说 Embedding 的形状为 (vocab_size, hidden_size),越大的词表也会带来模型参数的增加。
BERT 原始的 bpe 词表大小为 30KRoBERTa 选择了 50K 大小的词表来优化模型的编码能力。
通过上述三个部分的优化RoBERTa 成功地在 BERT 架构的基础上刷新了多个下游任务的 SOTA也一度成为 BERT 系模型最热门的预训练模型。同时RoBERTa 的成功也证明了更大的预训练数据、更大的预训练步长的重要意义,这也是 LLM 诞生的基础之一。
**参考资料**