自然语言处理中的词嵌入——从离散符号到语义向量空间

目录

一、前言

二、什么是词嵌入

(一)基本定义

(二)一句话理解

(三)示例

三、词嵌入的核心思想

(一)分布式假设

(二)经典观点

(三)核心目标

四、词嵌入与One-hot对比

(一)One-hot表示

问题

(二)词嵌入表示

优点

五、词嵌入的几何意义

(一)向量空间模型

(二)语义距离

(三)意义

六、经典词嵌入方法

七、Word2Vec模型

(一)核心思想

(二)两种训练方式

[1、CBOW(Continuous Bag of Words)](#1、CBOW(Continuous Bag of Words))

2、Skip-gram

(三)训练目标

八、GloVe模型

(一)核心思想

(二)特点

(三)优势

九、FastText模型

(一)核心思想

(二)优势

(三)示例

十、词嵌入的训练方式

(一)监督信号来自文本

(二)训练方式

(三)目标函数

十一、词嵌入在NLP中的作用

(一)输入表示

(二)模型基础

(三)公式表达

十二、词嵌入的语义能力

(一)语义相似

(二)语义关系

(三)线性结构

十三、词嵌入的局限性

(一)静态表示

(二)多义词问题

(三)无法动态变化

[十四、词嵌入 vs 上下文嵌入](#十四、词嵌入 vs 上下文嵌入)

(一)词嵌入

(二)上下文嵌入

十五、词嵌入的发展趋势

(一)从静态到动态

(二)从词到子词

(三)从浅层到深层语义

十六、词嵌入应用

(一)搜索引擎

(二)推荐系统

(三)文本分类

(四)问答系统

十七、词嵌入结构总结

十八、总结


一、前言

在Natural Language Processing中,一个核心问题始终存在:

复制代码
如何让机器理解"词语的语义"

早期方法把词当作离散符号(one-hot),但这种方式存在严重问题:

复制代码
词与词之间"没有任何语义关系"

为了解决这个问题,词嵌入(Word Embedding)技术被提出。


二、什么是词嵌入

(一)基本定义

词嵌入是指:

复制代码
将词语映射到一个低维、稠密的向量空间

(二)一句话理解

复制代码
用"坐标"表示词语的语义

(三)示例

复制代码
"国王" → [0.25, -1.3, 0.8, ...]
"皇后" → [0.22, -1.2, 0.85, ...]

三、词嵌入的核心思想

(一)分布式假设

复制代码
一个词的意义由其上下文决定

(二)经典观点

复制代码
You shall know a word by the company it keeps

(三)核心目标

复制代码
语义相近的词在向量空间中距离更近

四、词嵌入与One-hot对比


(一)One-hot表示

复制代码
"猫" = [0,0,1,0,0,...]

问题

  • 高维稀疏

  • 无语义关系


(二)词嵌入表示

复制代码
"猫" = [0.12, -0.8, 0.3, ...]

优点

  • 低维稠密

  • 可计算语义


五、词嵌入的几何意义

(一)向量空间模型

复制代码
词 → 向量 → 空间坐标

(二)语义距离

\text{similarity}(a,b)=\cos(\theta)=\frac{a\cdot b}{|a||b|}


(三)意义

复制代码
语义相似 ≈ 向量夹角小

六、经典词嵌入方法


七、Word2Vec模型

Word2Vec 是词嵌入的里程碑方法。


(一)核心思想

复制代码
通过预测上下文学习词向量

(二)两种训练方式

1、CBOW(Continuous Bag of Words)

复制代码
上下文 → 预测中心词

2、Skip-gram

复制代码
中心词 → 预测上下文

(三)训练目标

复制代码
最大化上下文预测概率

八、GloVe模型

GloVe


(一)核心思想

复制代码
基于全局词共现矩阵学习词向量

(二)特点

  • 利用统计信息

  • 全局语义建模


(三)优势

复制代码
兼顾局部与全局语义

九、FastText模型

FastText


(一)核心思想

复制代码
词 = 子词(n-gram)组合

(二)优势

  • 解决OOV问题

  • 支持形态变化


(三)示例

复制代码
playing → play + ing

十、词嵌入的训练方式


(一)监督信号来自文本

复制代码
无需人工标注

(二)训练方式

  • 自监督学习

(三)目标函数

复制代码
最大化上下文预测能力

十一、词嵌入在NLP中的作用


(一)输入表示

复制代码
token → embedding → model

(二)模型基础

  • RNN

  • CNN

  • Transformer


(三)公式表达

x_i = Embedding(w_i)


十二、词嵌入的语义能力


(一)语义相似

  • 猫 ≈ 狗

(二)语义关系

复制代码
king - man + woman ≈ queen

(三)线性结构

复制代码
语义关系 ≈ 向量运算

十三、词嵌入的局限性


(一)静态表示

复制代码
一个词只有一个向量

(二)多义词问题

  • bank(银行 / 河岸)

(三)无法动态变化


十四、词嵌入 vs 上下文嵌入


(一)词嵌入

  • Word2Vec / GloVe

  • 静态向量


(二)上下文嵌入

BERT

复制代码
同一个词在不同句子中向量不同

十五、词嵌入的发展趋势


(一)从静态到动态

  • Word2Vec → BERT

(二)从词到子词

  • Subword embedding

(三)从浅层到深层语义

  • Transformer表示

十六、词嵌入应用


(一)搜索引擎

  • 语义检索

(二)推荐系统

  • 用户兴趣建模

(三)文本分类

  • 情感分析

(四)问答系统

  • 语义匹配

十七、词嵌入结构总结

复制代码
Text
 ↓
Tokenization
 ↓
Embedding Layer
 ↓
Vector Representation
 ↓
Neural Network

十八、总结

词嵌入是自然语言处理中的基础技术,它将离散的语言符号转化为连续的向量空间,使机器能够理解语义关系,并为后续深度学习模型提供统一输入表示。

本文系统讲解了:

1、词嵌入基本概念

2、与One-hot对比

3、向量空间语义

4、Word2Vec模型

5、GloVe模型

6、FastText模型

7、训练方式

8、语义能力

9、局限性

10、上下文嵌入发展

11、应用场景

可以将词嵌入理解为:

"将语言从符号世界映射到几何空间,使语义关系变得可计算。"

掌握词嵌入,就掌握了语言进入神经网络世界的第一层表示方式。

相关推荐
雪隐8 分钟前
个人电脑玩AI-09让5060 Ti给你打工——让 AI 读懂你的资料
人工智能·后端
大模型真好玩25 分钟前
LangChain DeepAgents 速通指南(十)—— DeepAgents Code 智能体服务核心源码解读
人工智能·langchain·agent
网易云信41 分钟前
「帝王蟹」企业AI落地实战营西安站落幕:共探“人工智能+”落地深水区
人工智能·agent·产品
阿虎儿1 小时前
本地构建的自定义sandbox-extra镜像推送到沙盒daytona的snapshot列表中
人工智能
网易云信1 小时前
Agent在客服和营销领域走到哪一步了?深度解析3个挑战和5大趋势
人工智能·agent
网易云信2 小时前
AI 融入协作场景,Hermes 接入云信 IM
人工智能·agent
vivo互联网技术2 小时前
ICLR 2026 | 基于后验采样的图像恢复方法LearnIR:人脸去阴影、去雾
人工智能·算法·aigc
饼干哥哥2 小时前
ChatGPT会员掉了,代充黑幕藏不住了
人工智能·操作系统·产品
ZzT2 小时前
Claude Sonnet 5 来了:Opus 级的能力,Sonnet 的价
人工智能·ai编程·claude
用户5191495848453 小时前
CVE-2025-14440 漏洞利用工具 - WordPress 插件认证绕过检测
人工智能·aigc