docs(chapter1): 在NLP基础概述中添加词汇表说明
This commit is contained in:
@@ -219,6 +219,7 @@ vector = [0, 0, ..., 1, 0, ..., 1, 0, ..., 1, 0, ..., 1, 0, ..., 1, 0, ...]
|
||||
# 实际有效维度:仅5维(非零维度)
|
||||
# 稀疏率:(16384-5)/16384 ≈ 99.97%
|
||||
```
|
||||
> 词汇表是一个包含所有可能出现的词语的集合。在向量空间模型中,每个词对应词汇表中的一个位置,通过这种方式可以将词语转换为向量表示。例如,如果词汇表大小为 16384 ,那么每个词都会被表示为一个 16384 维的向量,其中只有该词对应的位置为 1,其他位置都为 0。
|
||||
|
||||
为了解决这些问题,研究者们对向量空间模型的研究主要集中在两个方面:一是改进特征表示方法,如借助图方法、主题方法等进行关键词抽取;二是改进和优化特征项权重的计算方法,可以在现有方法的基础上进行融合计算或提出新的计算方法.
|
||||
|
||||
|
||||
Reference in New Issue
Block a user