chore: Update tokenizer documentation and finish GPT mode
This commit is contained in:
@@ -78,3 +78,108 @@ Output: ["new", "est"]
|
|||||||
|
|
||||||
这里我们选择使用 BPE 算法来训练一个 Subword Tokenizer。BPE 是一种简单而有效的分词方法,能够处理未登录词和罕见词,同时保持较小的词典大小。我们将使用 Hugging Face 的 `tokenizers` 库来训练一个 BPE Tokenizer。
|
这里我们选择使用 BPE 算法来训练一个 Subword Tokenizer。BPE 是一种简单而有效的分词方法,能够处理未登录词和罕见词,同时保持较小的词典大小。我们将使用 Hugging Face 的 `tokenizers` 库来训练一个 BPE Tokenizer。
|
||||||
|
|
||||||
|
|
||||||
|
### Step 1: 安装和导入依赖库
|
||||||
|
|
||||||
|
首先,我们需要安装 `tokenizers` 库,除此之外还需要安装 `datasets` 和 `transformers` 库,用于加载训练数据和加载训练完成后的 Tokenizer。
|
||||||
|
|
||||||
|
```bash
|
||||||
|
pip install tokenizers datasets transformers
|
||||||
|
```
|
||||||
|
|
||||||
|
然后,导入所需的库。
|
||||||
|
|
||||||
|
```python
|
||||||
|
from tokenizers import Tokenizer
|
||||||
|
from tokenizers.pre_tokenizers import Whitespace
|
||||||
|
from tokenizers.models import BPE
|
||||||
|
from tokenizers.trainers import BpeTrainer
|
||||||
|
from datasets import load_dataset
|
||||||
|
```
|
||||||
|
|
||||||
|
### Step 2: 加载训练数据
|
||||||
|
|
||||||
|
我们使用 `datasets.load_dataset()` 库加载一个英文文本数据集,用于训练 BPE Tokenizer。这里我们使用 `wikitext` 数据集,包含了维基百科的文章文本。
|
||||||
|
|
||||||
|
```python
|
||||||
|
dataset = load_dataset("wikitext", "wikitext-103-v1", split="train")
|
||||||
|
|
||||||
|
# 准备训练数据
|
||||||
|
def batch_iterator(batch_size=1000):
|
||||||
|
for i in range(0, len(dataset), batch_size):
|
||||||
|
yield dataset[i:i + batch_size]["text"]
|
||||||
|
```
|
||||||
|
|
||||||
|
如果你使用本地的文本数据集,可以将数据加载到一个列表中,然后传入 `batch_iterator()` 函数中。如下所示:
|
||||||
|
|
||||||
|
```python
|
||||||
|
def load_text_from_files(path_list):
|
||||||
|
text_data = []
|
||||||
|
for file_path in path_list:
|
||||||
|
with open(file_path, 'r', encoding='utf-8') as file:
|
||||||
|
text_data.extend(file.readlines())
|
||||||
|
return text_data
|
||||||
|
|
||||||
|
def batch_iterator(text_data, batch_size=1000):
|
||||||
|
for i in range(0, len(text_data), batch_size):
|
||||||
|
yield text_data[i:i + batch_size]
|
||||||
|
|
||||||
|
# 假设你的文件路径列表是
|
||||||
|
path_list = ['text_data1.txt', 'text_data2.txt', 'text_data3.txt']
|
||||||
|
text_data = load_text_from_files(path_list)
|
||||||
|
```
|
||||||
|
|
||||||
|
### Step 3: 训练 BPE Tokenizer
|
||||||
|
|
||||||
|
(1)初始化tokenizer和trainer。
|
||||||
|
|
||||||
|
```python
|
||||||
|
tokenizer = Tokenizer(BPE())
|
||||||
|
```
|
||||||
|
|
||||||
|
(2)定义预处理器
|
||||||
|
|
||||||
|
```python
|
||||||
|
tokenizer.pre_tokenizer = Whitespace() # 使用 Whitespace 预处理器
|
||||||
|
```
|
||||||
|
|
||||||
|
(3)训练 BPE Tokenizer
|
||||||
|
|
||||||
|
```python
|
||||||
|
# 设置设置BPE训练器
|
||||||
|
trainer = BpeTrainer(vocab_size=32000, min_frequency=2, special_tokens=["<s>", "<pad>", "</s>", "<unk>"])
|
||||||
|
# 训练BPE Tokenizer
|
||||||
|
tokenizer.train_from_iterator(batch_iterator(), trainer)
|
||||||
|
# 保存训练好的 Tokenizer
|
||||||
|
tokenizer.save("./output/tokenizer.json")
|
||||||
|
```
|
||||||
|
|
||||||
|
在训练过程中,我们需要指定 BPE Tokenizer 的参数,如词典大小、最小词频和特殊标记。这些参数可以根据具体的任务和数据集进行调整,以获得更好的分词效果。
|
||||||
|
|
||||||
|
### Step 4: 使用训练好的 Tokenizer
|
||||||
|
|
||||||
|
(1)使用 Tokenizer 加载训练好的 Tokenizer
|
||||||
|
|
||||||
|
训练完成后,我们可以使用训练好的 Tokenizer 对文本进行分词。首先,我们需要加载训练好的 Tokenizer。
|
||||||
|
|
||||||
|
```python
|
||||||
|
tokenizer = Tokenizer.from_file("./output/tokenizer.json")
|
||||||
|
```
|
||||||
|
|
||||||
|
使用 Tokenizer 对文本进行分词
|
||||||
|
|
||||||
|
```python
|
||||||
|
# 测试tokenizer
|
||||||
|
encoding = tokenizer.encode("how old are you?heiheihei")
|
||||||
|
print(encoding.tokens)
|
||||||
|
print(encoding.ids)
|
||||||
|
|
||||||
|
# ['how', 'old', 'are', 'you', '?', 'hei', 'hei', 'hei']
|
||||||
|
# [2680, 1575, 1354, 2458, 34, 25088, 25088, 25088]
|
||||||
|
```
|
||||||
|
|
||||||
|
在这个例子中,我们使用训练好的 Tokenizer 对输入文本进行分词,得到了分词后的 token 序列。每个 token 都有一个对应的 id,可以用于后续的模型训练和推理。
|
||||||
|
|
||||||
|
(2)使用 transformers 库加载 Tokenizer
|
||||||
|
|
||||||
|
首先我们
|
||||||
|
|||||||
Reference in New Issue
Block a user