当前位置: 首页 > news >正文

[智能体-274]:OneHot(单词稀疏向量)→ BoW(文本稀疏向量)→ Word2Vec(单词稠密向量)→ BGE(文本稠密向量)

分类规律:按两个维度划分:粒度(单词 / 文本)+ 存储(稀疏 / 稠密)

稀疏向量稠密向量
单词粒度OneHotWord2Vec
文本粒度BoW 词袋BGE/E5

一、OneHot:单词级・稀疏向量

1. 作用

单个词语转为机器可计算数字,实现单词数字化。

2. 规则

全局词典长度 = 向量长度,当前单词下标置 1,其余全 0。例:

3. 特点

  1. 稀疏:绝大部分元素是 0;
  2. 任意两词向量正交,相似度永远 = 0,不懂词义关系
  3. 缺陷:词库变大,向量维度爆炸。

定位:只能表示单个词,无法直接表示整句文本。

二、BoW 词袋:文本级・稀疏向量

1. 由来

OneHot 只能编码单个词,机器学习需要整条文本转为一个特征向量诞生词袋

2. 规则

1. 全文档构建统一词典;

2. 一句话按词典顺序统计每个词语出现次数,构成整句向量。词典:[我,爱吃,苹果,香蕉]句子:我爱吃苹果 → \([1,1,1,0]\)

3. 特点

1.稀疏:大量位置计数为 0;

2. 丢弃语序、语法:狗咬人=人咬狗向量;

3. 无词语语义:苹果、香蕉同为水果,向量无相近关系。

定位:稀疏文本向量,实现整文本数字化,但无语义。

小结前两代:OneHot、BoW 全是稀疏编码,只能记录有无 / 频次,没有语义理解能力

三、Word2Vec:单词级・稠密向量

1. 由来

解决 OneHot/BoW 无语义的痛点:让词语拥有语义特征。

2. 原理

依托上下文无监督训练,同上下文的词语向量靠近,一个词对应一组连续小数(稠密)。

例:苹果\([0.2,0.5,-0.1]\),香蕉\([0.21,0.49,-0.09]\)

3. 特点

1.稠密:没有大量 0,维度固定(50/100/300);

2. 可余弦算相似度:苹果↔香蕉相似度很高;

3. 短板:静态词向量,一词一个固定向量,不能区分一词多义

4. 想要得到文本向量:只能把句内所有词向量求和 / 平均(简易拼接,丢失语序与整句语义)。

定位:语义化单词向量,天生只服务单个词语,不擅长直接表征整段文本

四、BGE/E5:文本级・稠密向量

1. 由来

Word2Vec 只能做好单词,拼接成文本效果差;

行业需要模型直接输出整句 / 段落的语义向量,用于检索、RAG。

2. 原理

基于预训练大模型,读取全句上下文、语序、整体意图,一段文本直接输出一条稠密向量

例:我喜欢吃苹果和香蕉→ 直接生成一条1024 维稠密数组

3. 特点

1.稠密向量

2. 理解整段主旨、隐含语义、语序;句式不同但意思相同的文本,向量高度近似;

3. 工业落地:知识库检索、文本聚类、语义匹配首选。

定位:原生语义化文本向量,当前主流。

五、整条链路进化逻辑

  1. 第一阶段:数字化(无语义)OneHot(单个词数字化)→BoW(整文本数字化),稀疏、只记录出现与否,不懂含义。
  2. 第二阶段:语义化(分粒度升级)Word2Vec(单词实现语义稠密化)→BGE(文本实现语义稠密化),从 “记数字” 升级为 “懂语义”。

六、一句话速记

  • OneHot:一词一稀疏
  • BoW:一句一稀疏
  • Word2Vec:一词一稠密
  • BGE:一句一稠密

补充衔接 BERT

BERT 是过渡:既可输出动态词向量(解决 Word2Vec 一词多义),也能构造句向量;BGE 在 BERT 基础上专门优化文本检索任务,成为通用文本嵌入

http://www.cnnetsun.cn/news/2771313.html

相关文章:

  • Cadence Allegro用户偏好设置深度解析:从核心原理到高效配置实战
  • 告别论文无效内耗!百考通AI一站式解决本硕博毕业论文写作难题
  • Microsoft 365 Copilot企业落地:构建可审计、可追溯的AI协作协议
  • 一键解决海量离线音乐歌词同步难题:LRCGET歌词下载神器
  • 3步快速上手:开源剧本写作神器Trelby完全指南
  • 无人机红外光伏板缺陷识别 红外太阳能电板识别图像数据集 太阳能面板图像识别
  • 供应商在SAP里提交的单据,能不能自动审核?[2026实战指南] 实在Agent驱动的财税一体化智能审核方案
  • 如何高效处理高维固定效应回归:reghdfe 完全指南
  • 暗黑3终极自动化助手:5分钟快速上手D3KeyHelper完整教程
  • LabVIEW内存管理:从数据类型到性能优化的底层原理与实践
  • Bulbasaur模型压缩技术揭秘:如何在保持性能的同时减少50%模型体积?
  • Windows效率革命:PowerToys-CN中文增强工具箱实用技巧
  • 技术人如何突破舒适区:从工程师到产品型人才的转型之路
  • FPGA开发全流程解析:从硬件描述语言到时序收敛的工程实践
  • MATLAB/Simulink可直接运行的LCA+CACC联合仿真包(含城市道路/变道/曲率/前馈补偿全模块)
  • 2026这6款王炸降AIGC软件大公开,一键让AIGC率直逼绝对安全线!
  • 群晖NAS Intel 2.5G网卡驱动终极指南:解锁隐藏的高速网络性能
  • 092、ByteTrack + YOLO 多目标跟踪:检测+跟踪串联方案的工程调优
  • YOLO关键点检测:从零开始构建人体姿态分析数据集完整教程
  • 2026最新Java面试题大全(带答案),全是今年大厂真正考的点
  • 百度网盘提取码智能获取工具:告别繁琐搜索,一键直达资源的终极指南
  • LabVIEW VI片段:从截图到代码的一键还原技术解析与应用
  • 新闻标题情感打分工具:Python一键运行,含数据、模型和可视化结果
  • SAE-Res-Qwen3-1.7B-Base-W32K-L0_100社区案例集:研究人员如何利用稀疏自编码器推动NLP发展
  • FPS游戏内实时目标锁定与平滑瞄准工具包(YOLOv5检测+PID动态调参,含完整Windows可执行流程)
  • 第21届全国大学智能汽车竞赛制作材料和服务产品的白名单与黑名单
  • 嵌入式Linux音视频系统开发实践:从硬件选型到无线可视门铃实现
  • Legado开源阅读鸿蒙版:打造您的个性化无广告数字图书馆终极指南
  • Allegro导出Gerber与钻孔文件:PCB设计到生产的完整指南
  • 构建Kodi云端媒体中心的115网盘代理技术方案