From 20a4bde837b37e96ab16bd766b5a81301f2a28de Mon Sep 17 00:00:00 2001 From: KMnO4-zx <1021385881@qq.com> Date: Tue, 17 Jun 2025 17:10:45 +0800 Subject: [PATCH] =?UTF-8?q?docs(chapter1):=20=E5=9C=A8NLP=E5=9F=BA?= =?UTF-8?q?=E7=A1=80=E6=A6=82=E8=BF=B0=E4=B8=AD=E6=B7=BB=E5=8A=A0=E8=AF=8D?= =?UTF-8?q?=E6=B1=87=E8=A1=A8=E8=AF=B4=E6=98=8E?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit --- docs/chapter1/第一章 NLP基础概念.md | 1 + 1 file changed, 1 insertion(+) diff --git a/docs/chapter1/第一章 NLP基础概念.md b/docs/chapter1/第一章 NLP基础概念.md index 9e634ce..9f403e8 100644 --- a/docs/chapter1/第一章 NLP基础概念.md +++ b/docs/chapter1/第一章 NLP基础概念.md @@ -219,6 +219,7 @@ vector = [0, 0, ..., 1, 0, ..., 1, 0, ..., 1, 0, ..., 1, 0, ..., 1, 0, ...] # 实际有效维度:仅5维(非零维度) # 稀疏率:(16384-5)/16384 ≈ 99.97% ``` +> 词汇表是一个包含所有可能出现的词语的集合。在向量空间模型中,每个词对应词汇表中的一个位置,通过这种方式可以将词语转换为向量表示。例如,如果词汇表大小为 16384 ,那么每个词都会被表示为一个 16384 维的向量,其中只有该词对应的位置为 1,其他位置都为 0。 为了解决这些问题,研究者们对向量空间模型的研究主要集中在两个方面:一是改进特征表示方法,如借助图方法、主题方法等进行关键词抽取;二是改进和优化特征项权重的计算方法,可以在现有方法的基础上进行融合计算或提出新的计算方法.