Update 第二章 Transformer架构.md

This commit is contained in:
Logan Zou
2025-06-23 11:09:04 +08:00
committed by GitHub
parent 98a122e323
commit 71f8d48290

View File

@@ -590,7 +590,7 @@ output: 2
因此Embedding 层的输入往往是一个形状为 batch_sizeseq_len1的矩阵第一个维度是一次批处理的数量第二个维度是自然语言序列的长度第三个维度则是 token 经过 tokenizer 转化成的 index 值。例如对上述输入Embedding 层的输入会是:
```
[[0,1,2]]
[[[0],[1],[2]]]
```
其 batch_size 为1seq_len 为3转化出来的 index 如上。