[智能体-274]:OneHot(单词稀疏向量)→ BoW(文本稀疏向量)→ Word2Vec(单词稠密向量)→ BGE(文本稠密向量) 分类规律按两个维度划分粒度单词 / 文本 存储稀疏 / 稠密稀疏向量稠密向量单词粒度OneHotWord2Vec文本粒度BoW 词袋BGE/E5一、OneHot单词级・稀疏向量1. 作用把单个词语转为机器可计算数字实现单词数字化。2. 规则全局词典长度 向量长度当前单词下标置 1其余全 0。例3. 特点稀疏绝大部分元素是 0任意两词向量正交相似度永远 0不懂词义关系缺陷词库变大向量维度爆炸。定位只能表示单个词无法直接表示整句文本。二、BoW 词袋文本级・稀疏向量1. 由来OneHot 只能编码单个词机器学习需要整条文本转为一个特征向量诞生词袋。2. 规则1. 全文档构建统一词典2. 一句话按词典顺序统计每个词语出现次数构成整句向量。词典[我爱吃苹果香蕉]句子我爱吃苹果 → \([1,1,1,0]\)3. 特点1.稀疏大量位置计数为 02. 丢弃语序、语法狗咬人人咬狗向量3. 无词语语义苹果、香蕉同为水果向量无相近关系。定位稀疏文本向量实现整文本数字化但无语义。小结前两代OneHot、BoW 全是稀疏编码只能记录有无 / 频次没有语义理解能力。三、Word2Vec单词级・稠密向量1. 由来解决 OneHot/BoW 无语义的痛点让词语拥有语义特征。2. 原理依托上下文无监督训练同上下文的词语向量靠近一个词对应一组连续小数稠密。例苹果\([0.2,0.5,-0.1]\)香蕉\([0.21,0.49,-0.09]\)3. 特点1.稠密没有大量 0维度固定50/100/3002. 可余弦算相似度苹果↔香蕉相似度很高3. 短板静态词向量一词一个固定向量不能区分一词多义4. 想要得到文本向量只能把句内所有词向量求和 / 平均简易拼接丢失语序与整句语义。定位语义化单词向量天生只服务单个词语不擅长直接表征整段文本。四、BGE/E5文本级・稠密向量1. 由来Word2Vec 只能做好单词拼接成文本效果差行业需要模型直接输出整句 / 段落的语义向量用于检索、RAG。2. 原理基于预训练大模型读取全句上下文、语序、整体意图一段文本直接输出一条稠密向量。例我喜欢吃苹果和香蕉→ 直接生成一条1024 维稠密数组。3. 特点1.稠密向量2. 理解整段主旨、隐含语义、语序句式不同但意思相同的文本向量高度近似3. 工业落地知识库检索、文本聚类、语义匹配首选。定位原生语义化文本向量当前主流。五、整条链路进化逻辑第一阶段数字化无语义OneHot单个词数字化→BoW整文本数字化稀疏、只记录出现与否不懂含义。第二阶段语义化分粒度升级Word2Vec单词实现语义稠密化→BGE文本实现语义稠密化从 “记数字” 升级为 “懂语义”。六、一句话速记OneHot一词一稀疏BoW一句一稀疏Word2Vec一词一稠密BGE一句一稠密补充衔接 BERTBERT 是过渡既可输出动态词向量解决 Word2Vec 一词多义也能构造句向量BGE 在 BERT 基础上专门优化文本检索任务成为通用文本嵌入