From 665de0cfa46ca97b6dcdc073db73cd37a25418d3 Mon Sep 17 00:00:00 2001 From: logan Date: Thu, 30 May 2024 22:11:26 +0800 Subject: [PATCH] finish 3.1.2 --- docs/chapter3/3.1 Encoder-Only.md | 5 +++++ 1 file changed, 5 insertions(+) diff --git a/docs/chapter3/3.1 Encoder-Only.md b/docs/chapter3/3.1 Encoder-Only.md index c72648f..a236aa8 100755 --- a/docs/chapter3/3.1 Encoder-Only.md +++ b/docs/chapter3/3.1 Encoder-Only.md @@ -143,6 +143,11 @@ RoBERTa 使用了更大量的无监督语料进行预训练,除去 BERT 所使 RoBERTa、BERT 和 Transformer 一样,都使用了 bpe 作为 tokenizer 的编码策略。bpe,即 Byte Pair Encoding,字节对编码,是指以子词对作为分词的单位。例如,对“Hello World”这句话,可能会切分为“Hel,lo,Wor,ld”四个子词对。而对于以字为基本单位的中文,一般会按照 字节编码进行切分。例如,在 UTF-8 编码中,“我”会被编码为“E68891”,那么在 bpe 中可能就会切分成“E68”,“891”两个字词对。 +一般来说,bpe 编码的词典越大,编码效果越好。当然,由于 Embedding 层就是把 token 从词典空间映射到隐藏空间(也就是说 Embedding 的形状为 (vocab_size, hidden_size),越大的词表也会带来模型参数的增加。 + +BERT 原始的 bpe 词表大小为 30K,RoBERTa 选择了 50K 大小的词表来优化模型的编码能力。 + +通过上述三个部分的优化,RoBERTa 成功地在 BERT 架构的基础上刷新了多个下游任务的 SOTA,也一度成为 BERT 系模型最热门的预训练模型。同时,RoBERTa 的成功也证明了更大的预训练数据、更大的预训练步长的重要意义,这也是 LLM 诞生的基础之一。 **参考资料**