docs(chapter1): 在NLP基础概述中添加词汇表说明

This commit is contained in:
KMnO4-zx
2025-06-17 17:10:45 +08:00
parent 1f46fc1dd5
commit 20a4bde837

View File

@@ -219,6 +219,7 @@ vector = [0, 0, ..., 1, 0, ..., 1, 0, ..., 1, 0, ..., 1, 0, ..., 1, 0, ...]
# 实际有效维度仅5维非零维度 # 实际有效维度仅5维非零维度
# 稀疏率:(16384-5)/16384 ≈ 99.97% # 稀疏率:(16384-5)/16384 ≈ 99.97%
``` ```
> 词汇表是一个包含所有可能出现的词语的集合。在向量空间模型中,每个词对应词汇表中的一个位置,通过这种方式可以将词语转换为向量表示。例如,如果词汇表大小为 16384 ,那么每个词都会被表示为一个 16384 维的向量,其中只有该词对应的位置为 1其他位置都为 0。
为了解决这些问题,研究者们对向量空间模型的研究主要集中在两个方面:一是改进特征表示方法,如借助图方法、主题方法等进行关键词抽取;二是改进和优化特征项权重的计算方法,可以在现有方法的基础上进行融合计算或提出新的计算方法. 为了解决这些问题,研究者们对向量空间模型的研究主要集中在两个方面:一是改进特征表示方法,如借助图方法、主题方法等进行关键词抽取;二是改进和优化特征项权重的计算方法,可以在现有方法的基础上进行融合计算或提出新的计算方法.