From 71f8d48290d8cd0f1fe5498380cebcdfdfa753cd Mon Sep 17 00:00:00 2001 From: Logan Zou <74288839+logan-zou@users.noreply.github.com> Date: Mon, 23 Jun 2025 11:09:04 +0800 Subject: [PATCH] =?UTF-8?q?Update=20=E7=AC=AC=E4=BA=8C=E7=AB=A0=20Transfor?= =?UTF-8?q?mer=E6=9E=B6=E6=9E=84.md?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit --- docs/chapter2/第二章 Transformer架构.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/docs/chapter2/第二章 Transformer架构.md b/docs/chapter2/第二章 Transformer架构.md index ade1b5d..a8d6864 100644 --- a/docs/chapter2/第二章 Transformer架构.md +++ b/docs/chapter2/第二章 Transformer架构.md @@ -590,7 +590,7 @@ output: 2 因此,Embedding 层的输入往往是一个形状为 (batch_size,seq_len,1)的矩阵,第一个维度是一次批处理的数量,第二个维度是自然语言序列的长度,第三个维度则是 token 经过 tokenizer 转化成的 index 值。例如,对上述输入,Embedding 层的输入会是: ``` -[[0,1,2]] +[[[0],[1],[2]]] ``` 其 batch_size 为1,seq_len 为3,转化出来的 index 如上。