From 2601c454449211928101387b682d843b67da2f43 Mon Sep 17 00:00:00 2001 From: KMnO4-zx <1021385881@qq.com> Date: Wed, 18 Jun 2025 16:33:43 +0800 Subject: [PATCH] =?UTF-8?q?docs(chapter5):=20=E4=BF=AE=E5=A4=8DLLaMA2=20At?= =?UTF-8?q?tention=E7=BB=93=E6=9E=84=E5=9B=BE=E4=B8=AD=E5=9B=BE=E7=89=87?= =?UTF-8?q?=E9=93=BE=E6=8E=A5=E6=A0=BC=E5=BC=8F?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit --- docs/chapter5/第五章 动手搭建大模型.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/docs/chapter5/第五章 动手搭建大模型.md b/docs/chapter5/第五章 动手搭建大模型.md index ddbf7a5..36f6700 100644 --- a/docs/chapter5/第五章 动手搭建大模型.md +++ b/docs/chapter5/第五章 动手搭建大模型.md @@ -114,7 +114,7 @@ torch.Size([1, 50, 768]) 在 LLaMA2 模型中,虽然只有 LLaMA2-70B模型使用了分组查询注意力机制(Grouped-Query Attention,GQA),但我们依然选择使用 GQA 来构建我们的 LLaMA Attention 模块,它可以提高模型的效率,并节省一些显存占用。
图 5.2 LLaMA2 Attention 结构