自然语言处理中的词嵌入——从离散符号到语义向量空间

目录

一、前言

二、什么是词嵌入

(一)基本定义

(二)一句话理解

(三)示例

三、词嵌入的核心思想

(一)分布式假设

(二)经典观点

(三)核心目标

四、词嵌入与One-hot对比

(一)One-hot表示

问题

(二)词嵌入表示

优点

五、词嵌入的几何意义

(一)向量空间模型

(二)语义距离

(三)意义

六、经典词嵌入方法

七、Word2Vec模型

(一)核心思想

(二)两种训练方式

[1、CBOW(Continuous Bag of Words)](#1、CBOW(Continuous Bag of Words))

2、Skip-gram

(三)训练目标

八、GloVe模型

(一)核心思想

(二)特点

(三)优势

九、FastText模型

(一)核心思想

(二)优势

(三)示例

十、词嵌入的训练方式

(一)监督信号来自文本

(二)训练方式

(三)目标函数

十一、词嵌入在NLP中的作用

(一)输入表示

(二)模型基础

(三)公式表达

十二、词嵌入的语义能力

(一)语义相似

(二)语义关系

(三)线性结构

十三、词嵌入的局限性

(一)静态表示

(二)多义词问题

(三)无法动态变化

[十四、词嵌入 vs 上下文嵌入](#十四、词嵌入 vs 上下文嵌入)

(一)词嵌入

(二)上下文嵌入

十五、词嵌入的发展趋势

(一)从静态到动态

(二)从词到子词

(三)从浅层到深层语义

十六、词嵌入应用

(一)搜索引擎

(二)推荐系统

(三)文本分类

(四)问答系统

十七、词嵌入结构总结

十八、总结


一、前言

在Natural Language Processing中,一个核心问题始终存在:

复制代码
如何让机器理解"词语的语义"

早期方法把词当作离散符号(one-hot),但这种方式存在严重问题:

复制代码
词与词之间"没有任何语义关系"

为了解决这个问题,词嵌入(Word Embedding)技术被提出。


二、什么是词嵌入

(一)基本定义

词嵌入是指:

复制代码
将词语映射到一个低维、稠密的向量空间

(二)一句话理解

复制代码
用"坐标"表示词语的语义

(三)示例

复制代码
"国王" → [0.25, -1.3, 0.8, ...]
"皇后" → [0.22, -1.2, 0.85, ...]

三、词嵌入的核心思想

(一)分布式假设

复制代码
一个词的意义由其上下文决定

(二)经典观点

复制代码
You shall know a word by the company it keeps

(三)核心目标

复制代码
语义相近的词在向量空间中距离更近

四、词嵌入与One-hot对比


(一)One-hot表示

复制代码
"猫" = [0,0,1,0,0,...]

问题

  • 高维稀疏

  • 无语义关系


(二)词嵌入表示

复制代码
"猫" = [0.12, -0.8, 0.3, ...]

优点

  • 低维稠密

  • 可计算语义


五、词嵌入的几何意义

(一)向量空间模型

复制代码
词 → 向量 → 空间坐标

(二)语义距离

\text{similarity}(a,b)=\cos(\theta)=\frac{a\cdot b}{|a||b|}


(三)意义

复制代码
语义相似 ≈ 向量夹角小

六、经典词嵌入方法


七、Word2Vec模型

Word2Vec 是词嵌入的里程碑方法。


(一)核心思想

复制代码
通过预测上下文学习词向量

(二)两种训练方式

1、CBOW(Continuous Bag of Words)

复制代码
上下文 → 预测中心词

2、Skip-gram

复制代码
中心词 → 预测上下文

(三)训练目标

复制代码
最大化上下文预测概率

八、GloVe模型

GloVe


(一)核心思想

复制代码
基于全局词共现矩阵学习词向量

(二)特点

  • 利用统计信息

  • 全局语义建模


(三)优势

复制代码
兼顾局部与全局语义

九、FastText模型

FastText


(一)核心思想

复制代码
词 = 子词(n-gram)组合

(二)优势

  • 解决OOV问题

  • 支持形态变化


(三)示例

复制代码
playing → play + ing

十、词嵌入的训练方式


(一)监督信号来自文本

复制代码
无需人工标注

(二)训练方式

  • 自监督学习

(三)目标函数

复制代码
最大化上下文预测能力

十一、词嵌入在NLP中的作用


(一)输入表示

复制代码
token → embedding → model

(二)模型基础

  • RNN

  • CNN

  • Transformer


(三)公式表达

x_i = Embedding(w_i)


十二、词嵌入的语义能力


(一)语义相似

  • 猫 ≈ 狗

(二)语义关系

复制代码
king - man + woman ≈ queen

(三)线性结构

复制代码
语义关系 ≈ 向量运算

十三、词嵌入的局限性


(一)静态表示

复制代码
一个词只有一个向量

(二)多义词问题

  • bank(银行 / 河岸)

(三)无法动态变化


十四、词嵌入 vs 上下文嵌入


(一)词嵌入

  • Word2Vec / GloVe

  • 静态向量


(二)上下文嵌入

BERT

复制代码
同一个词在不同句子中向量不同

十五、词嵌入的发展趋势


(一)从静态到动态

  • Word2Vec → BERT

(二)从词到子词

  • Subword embedding

(三)从浅层到深层语义

  • Transformer表示

十六、词嵌入应用


(一)搜索引擎

  • 语义检索

(二)推荐系统

  • 用户兴趣建模

(三)文本分类

  • 情感分析

(四)问答系统

  • 语义匹配

十七、词嵌入结构总结

复制代码
Text
 ↓
Tokenization
 ↓
Embedding Layer
 ↓
Vector Representation
 ↓
Neural Network

十八、总结

词嵌入是自然语言处理中的基础技术,它将离散的语言符号转化为连续的向量空间,使机器能够理解语义关系,并为后续深度学习模型提供统一输入表示。

本文系统讲解了:

1、词嵌入基本概念

2、与One-hot对比

3、向量空间语义

4、Word2Vec模型

5、GloVe模型

6、FastText模型

7、训练方式

8、语义能力

9、局限性

10、上下文嵌入发展

11、应用场景

可以将词嵌入理解为:

"将语言从符号世界映射到几何空间,使语义关系变得可计算。"

掌握词嵌入,就掌握了语言进入神经网络世界的第一层表示方式。

相关推荐
蜂蜜黄油呀土豆1 小时前
Reflexion:让 Agent 用「言语」做强化学习
python·ai·大模型·reflexion
姚青&1 小时前
Rules(行为约束)
ai·ai编程
AI服务老曹1 小时前
深度解析:基于 Docker 与边缘计算的 AI 视频管理平台 —— 实现 GB28181/RTSP 统一接入与源码交付的异构架构实践
人工智能·docker·边缘计算
搬石头的马农1 小时前
御三家旗舰模型混战下的企业选型策略:GPT-5.6、Fable 5、Gemini 3.5 Pro 怎么选? - 微元算力(weytoken)
java·人工智能·python·gpt·ai编程
Artech1 小时前
[MAF预定义ChatClient中间件-08]OpenTelemetryChatClient-实现链路跟踪和性能监控
ai·agent·open telemetry·maf
DS随心转插件1 小时前
实测 AI 导出鸭!Markdown 转 Word 工具效果实测与质量解析
人工智能·ai·word·deepseek·ai导出鸭
zyplayer-doc1 小时前
知识库官方CLI工具已发布并开源,以及重写思维导图编辑器,提供更完整的编辑能力,zyplayer-doc 2.6.6 发布啦!
人工智能·安全·pdf·编辑器·创业创新
Wanderer X1 小时前
qoder cli
人工智能
贺国亚1 小时前
低代码AI平台-Dify-Coze与企业落地
人工智能·低代码