当你读到“猫”这个词时,脑海里会浮现毛茸茸的宠物形象;而AI看到“猫”时,处理的却是一串数字(例如[0.24, -0.87, 1.32, ...])。这种将词语转换为数值表示的技术称为词向量(Word Embedding),它是所有大模型理解语言的基石。本文将带你深入词向量的发展历程与技术原理,揭示AI如何通过“词典中的坐标”理解人类语义。
一、为什么需要词向量?
1. 机器的“语言障碍”
计算机只能处理数字,无法直接理解文本。早期方法如One-Hot编码将每个词转换为唯一ID:
-
“猫” → [1, 0, 0, 0, ...]
-
“狗” → [0, 1, 0, 0, ...]
-
“鱼” → [0, 0, 1, 0, ...]
缺陷:
2. 革命性思想:分布假说
语言学家Zellig Harris提出:“词语的语义由它的上下文决定”。
例如:
词向量技术正是基于这一思想,将语义相似的词映射到向量空间中相近的位置。
二、词向量进化史
1. Word2Vec(2013年,Google)
2. GloVe(2014年,斯坦福)
-
融合全局统计信息(词共现矩阵)与局部窗口训练
-
更适合大规模语料(如维基百科全文)
3. 上下文嵌入(2018年后)
模型
|
突破点
|
示例:多义词“苹果”
|
ELMo
|
根据上下文动态调整向量
|
“吃苹果” → 水果向量
“苹果手机” → 品牌向量
|
BERT
|
双向编码器捕捉完整语境
|
“苹果很甜” vs “苹果很贵” → 不同向量
|
GPT系列
|
生成式预训练统一文本表示
|
兼容生成与理解任务
|
三、技术深潜:Word2Vec如何工作?
1. 神经网络训练流程
-
输入:One-Hot编码的词语(如“猫”→ [1,0,0,...])
-
隐藏层:权重矩阵(即词向量表)将高维One-Hot压缩为低维向量(如300维)
-
输出层:预测上下文词概率分布
-
反向传播:调整权重矩阵,使预测更准确
2. 可视化语义空间
通过降维技术(如t-SNE)将高维向量投影到2D平面:
四、现代嵌入:Transformer如何升级词向量?
1. 从静态到动态
2. 子词嵌入(Subword Embedding)
解决未登录词(OOV)问题:
3. 句向量与段落向量
五、应用场景:词向量如何改变世界?
1. 语义搜索
2. 文本分类
3. 机器翻译
4. 跨模态应用
六、局限与挑战
1. 偏见放大
2. 计算与存储成本
3. 语义鸿沟
-
无法处理罕见专业术语(如化学分子式)
-
对文化特定概念表征不足(如中文“内卷”)
七、未来方向
1. 知识增强嵌入
2. 稀疏性与压缩
3. 具身嵌入
往期推荐
售后维保管理系统
智慧食堂进销存采购管理系统
多功能物品智能柜
无人值守称重管理系统
三维数字场景可视化系统
WMS仓库管理系统
联系我们
西安启越纵横智能科技有限公司
通讯地址:陕西省西安市高新区科技路27号E阳国际1305室
加紧联系电话:17392463595
固定电话:029-88811803
公司网址:www.qyzhtec.com
甘肃启越纵横电子科技有限公司
通讯地址:甘肃省兰州高新区高新大厦B座22楼
加紧联系电话:13919353594
固定电话:0931-8262516
公司网址:www.qyzhtec.com
|