finish 3.1.2
This commit is contained in:
@@ -143,6 +143,11 @@ RoBERTa 使用了更大量的无监督语料进行预训练,除去 BERT 所使
|
||||
|
||||
RoBERTa、BERT 和 Transformer 一样,都使用了 bpe 作为 tokenizer 的编码策略。bpe,即 Byte Pair Encoding,字节对编码,是指以子词对作为分词的单位。例如,对“Hello World”这句话,可能会切分为“Hel,lo,Wor,ld”四个子词对。而对于以字为基本单位的中文,一般会按照 字节编码进行切分。例如,在 UTF-8 编码中,“我”会被编码为“E68891”,那么在 bpe 中可能就会切分成“E68”,“891”两个字词对。
|
||||
|
||||
一般来说,bpe 编码的词典越大,编码效果越好。当然,由于 Embedding 层就是把 token 从词典空间映射到隐藏空间(也就是说 Embedding 的形状为 (vocab_size, hidden_size),越大的词表也会带来模型参数的增加。
|
||||
|
||||
BERT 原始的 bpe 词表大小为 30K,RoBERTa 选择了 50K 大小的词表来优化模型的编码能力。
|
||||
|
||||
通过上述三个部分的优化,RoBERTa 成功地在 BERT 架构的基础上刷新了多个下游任务的 SOTA,也一度成为 BERT 系模型最热门的预训练模型。同时,RoBERTa 的成功也证明了更大的预训练数据、更大的预训练步长的重要意义,这也是 LLM 诞生的基础之一。
|
||||
|
||||
**参考资料**
|
||||
|
||||
|
||||
Reference in New Issue
Block a user