给句子做个"语义审计"：从词向量到句子向量的方法论

给句子做个"语义审计"：从词向量到句子向量的方法论
- [1. 从"证件照"到"公司全貌"](#1. 从“证件照”到“公司全貌”)
- [2. 方法一：把所有照片叠在一起取平均](#2. 方法一：把所有照片叠在一起取平均)
- [3. 方法二：给重要的人更高权重（TF-IDF）](#3. 方法二：给重要的人更高权重（TF-IDF）)
- [4. 方法三：剔除"行业共性"，只看个性（SIF）⭐ 推荐](#4. 方法三：剔除“行业共性”，只看个性（SIF）⭐ 推荐)
- [5. 方法四：按时间顺序读会议纪要（RNN / LSTM）](#5. 方法四：按时间顺序读会议纪要（RNN / LSTM）)
- [6. 方法五：请麦肯锡做尽调（BERT / SBERT）⭐⭐⭐ 当前主流](#6. 方法五：请麦肯锡做尽调（BERT / SBERT）⭐⭐⭐ 当前主流)
- [7. 方法六：直接算两家公司的"迁移成本"（WMD）](#7. 方法六：直接算两家公司的“迁移成本”（WMD）)
- [8. 一张表对比](#8. 一张表对比)
- [9. 实际场景怎么选？](#9. 实际场景怎么选？)
- [10. 从句子到段落：问题的自然延伸](#10. 从句子到段落：问题的自然延伸)
- [11. 段落级方法：思路高度对应](#11. 段落级方法：思路高度对应)
- [12. 段落比句子多了什么？](#12. 段落比句子多了什么？)
- 总结

上一篇从独热向量到词向量：彻底搞懂 AI 如何理解语言我们理解了：词向量是给每个词拍一张"证件照"。但现实中的任务，往往是处理一整句话。一句话里有一叠"证件照"，怎么看出这句话到底代表什么？这就是本文要解决的问题。

这篇笔记不是冰冷的技术罗列，而是一次用审计思维对"语义融合"进行的阐述，本文将像分析公司一样分析句子，看看如何将词向量合并，得到代表整句话的句子向量。

1. 从"证件照"到"公司全貌"

你已经有了词向量。每个词都是一张"证件照"------300 维的数字，记录着这个词的"长相"。

但现实任务里，你面对的是一句话。一句话少则三五个词，多则几十个词。每个词都有一张"证件照"，你手里捏着一叠照片，怎么看出全貌呢？

这就是句子向量要解决的问题：把一叠词向量，融合成一个句子向量。

那怎么融合呢？不同的人有不同的思路。接下来我们基于公司的角度，按几种基本方法逐个分析。

2. 方法一：把所有照片叠在一起取平均

最直接的想法：把所有词向量加起来，除以词数。

复制代码

例句: "我 喜欢 吃 苹果"

v(我)   = [0.1, 0.3, ...]
v(喜欢) = [0.5, 0.2, ...]
v(吃)   = [0.4, 0.1, ...]
v(苹果) = [0.8, 0.6, ...]

句子向量 = (v(我) + v(喜欢) + v(吃) + v(苹果)) / 4

就像你想了解一家公司的薪资水平，把所有人的工资加一起取平均------简单粗暴。

示例代码如下：

python 复制代码

import numpy as np

v_我   = np.array([0.1, 0.3, 0.2, 0.5])
v_喜欢 = np.array([0.5, 0.2, 0.8, 0.1])
v_吃   = np.array([0.4, 0.1, 0.3, 0.6])
v_苹果 = np.array([0.8, 0.6, 0.7, 0.2])

sentence_vec = (v_我 + v_喜欢 + v_吃 + v_苹果) / 4
print(sentence_vec)  # [0.45, 0.3, 0.5, 0.35]

优点：快，仅一行代码即可计算结果。

问题："前台" 和 "CEO" 的权重一样。"我" 和 "喜欢" 对句子语义的贡献，跟 "的"、"了" 一样大。显然不合理。

3. 方法二：给重要的人更高权重（TF-IDF）

CEO 说的话要比前台更有分量。

那怎么判断一个词重不重要？分两个维度：

TF（词频）：在这句话里出现次数多的词，可能更重要。
IDF（逆文档频率）：在整个语料库里到处出现的词（"的"、"了"、"是"），反而不重要。

TF-IDF 就是这两个指标的乘积。用它做权重，给每个词的向量加权：

复制代码

例句: "自然语言处理 是 人工智能 的 一个 分支"

TF-IDF 权重:
  "的"             → 0.01  （到处都有，几乎无意义）
  "是"             → 0.02  （常见虚词）
  "自然语言处理"    → 0.85  （重要实词）
  "人工智能"        → 0.80  （重要实词）

→ 实词主导句子向量，虚词被压到几乎为零

优点：能区分主次。

问题：

需要语料库来统计 IDF，语料不同结果不同。
还是没考虑词序。"人咬狗"和"狗咬人"权重一样，向量也一样。

4. 方法三：剔除"行业共性"，只看个性（SIF）⭐ 推荐

TF-IDF 有进步，但还有问题。

假如你分析两家公司的财务报表，会发现，不管什么行业的公司，都有一些"共性"支出------房租、水电、办公耗材。这些共性信息对你区分两家公司几乎没有帮助。

真正有用的，是剔除共性之后剩下的个性：一家公司研发投入占比奇高，另一家销售费用占比奇高。

SIF 干的就是这件事。

第一步：计算每个词的权重（和 TF-IDF 类似，但更平滑）

\ $w_i = \\frac{a}{a + f(w_i)} \\$

$f(w_i)$：这个词在整个语料里出现的频率。
$a$：一个很小的常数（通常取 0.0001 到 0.001）。

高频词（"的"、"是"）频率高 → 分母大 → 权重接近 0。低频词频率低 → 分母小 → 权重接近 1。

第二步：加权平均

\ $\\vec{v}_s = \\frac{1}{\|s\|} \\sum_{i \\in s} w_i \\cdot \\vec{v}_{w_i} \\$

这一步和 TF-IDF 加权很像，只是权重公式不一样。

第三步：移除第一主成分（关键！）

这是 SIF 的灵魂。把所有句子的向量放在一起，找到它们共同的方向（第一主成分），然后把这个方向从每个句子向量里减掉。

你可以这样理解：所有句子共享的那个"共同方向"，就是前面说的"房租"、"水电"等------它存在于每个句子里，但对区分句子的语义没有贡献。减掉它，剩下的才是每个句子真正独特的东西。

论文^[[1]](#[1])里的实验数据也证明了这一点：简单平均效果一般，TF-IDF 加权提升有限，SIF 加权 + 移除第一主成分才能带来显著跃升！！！

优点：效果远好于简单平均和 TF-IDF，实现也不复杂。

问题：仍然没考虑词序。

5. 方法四：按时间顺序读会议纪要（RNN / LSTM）

前面的方法都有一个致命缺陷：不区分词序。

"狗咬人"和"人咬狗"，简单平均之后向量完全一样。但语义天差地别。

我们需要一种能按顺序读的方法。就像看一份公司会议纪要，你不会把所有人说的话打散再理解------你会从头到尾阅读，理解事情的来龙去脉。

RNN（循环神经网络）就是这样：

复制代码

"狗 咬 人"

t=1: RNN 读取 v(狗) → 输出 h₁（当前的"记忆"）
t=2: RNN 读取 v(咬) + h₁ → 输出 h₂（融合了"狗咬"的信息）
t=3: RNN 读取 v(人) + h₂ → 输出 h₃（融合了"狗咬人"的全部信息）

h₃ 就是句子向量。

如果是"人咬狗"，读取顺序不同，最终 h₃ 也不同。

LSTM 是 RNN 的升级版，解决了长句子读到后面"忘记"开头的问题。

BiLSTM（双向 LSTM） 更进一步：一句话正着读一遍，反着读一遍，两边的结果拼在一起。这样每个词都能"看到"前后两个方向的信息。

优点：保留词序，捕捉上下文。

问题：训练慢，长距离依赖还是会衰减。而且------得从头训练一个模型，不像前面几种方法直接用现成的词向量就行。

6. 方法五：请麦肯锡做尽调（BERT / SBERT）⭐⭐⭐ 当前主流

前面四种方法，都有一个共同的思路：先有静态的词向量，再想办法把它们聚合起来。

但 Transformer 和 BERT 的思路完全不同。

BERT 不是"先有证件照再叠在一起"。而是：把一整句话一次性读进去，让每个词根据上下文动态调整自己的向量，然后直接输出整句话的理解结果。

就像你请麦肯锡来做尽职调查。他们当然也要看员工数据，但工作方式和前面完全不同：

简单平均是：把所有人的档案拿出来，算个平均值，结论是"本公司员工平均年薪 30 万"；
麦肯锡是：和高管访谈、了解各部门之间的协作关系、对比行业标杆、最后给出一份综合评估报告。这份报告里，同一个人在不同业务板块的表现可能完全不一样。

BERT 就是那个"麦肯锡顾问"。它不是直接取平均，而是让每个词在整句话的上下文里重新理解自己。

复制代码

例句: "我喜欢吃苹果"

[CLS] 我 喜 欢 吃 苹 果 [SEP]
  ↓    ↓  ↓  ↓  ↓  ↓  ↓
Transformer 编码器（12层自注意力）
  ↓
每个词得到一个"上下文感知"的向量
  ↓
取 [CLS] 的向量作为整句话的表示

关键区别：

特性	Word2Vec 词向量	BERT 词向量
"苹果"的向量	固定不变	在"吃苹果"里偏向水果，在"苹果手机"里偏向电脑
多义词	❌ 一个向量覆盖所有含义	✅ 上下文自动消歧
句子表示	需要手动聚合	直接取 `[CLS]` 或池化

SBERT（Sentence-BERT） 是专门为句子相似度任务微调过的 BERT。普通的 BERT 直接取 [CLS] 做句子向量效果一般，SBERT 专门优化了这个环节，效果显著更好。

优点：效果最好，词序、上下文、重要度一次性全解决。

问题：需要 GPU，推理慢，模型大。

7. 方法六：直接算两家公司的"迁移成本"（WMD）

还有一种完全不同的思路。

前面的方法，都是把句子压缩成一个向量，然后比较向量。WMD 是：不压缩了，直接算两个句子之间的"距离"。

就像你不把两家公司各自总结成一份报告再比较，而是直接算：把甲公司变成乙公司，最少要花多少钱？

复制代码

句子A："小明 买 苹果"
句子B："男孩 购 水果"

WMD 思路：
- "小明" → "男孩"（语义接近，移动成本低）
- "买"   → "购"  （语义接近，移动成本低）
- "苹果" → "水果"（语义接近，移动成本低）

总移动成本 = 最优词对齐下的最小总距离。

这个方法理论很漂亮，但计算成本较高：

WMD 需要在两个句子的所有词之间找最优的"搬运方案"。这个优化问题的标准解法时间复杂度是 O(n³ log n)，n 是词汇表大小------不是句子长度，是整个词汇表。也就是说，每比较两个句子，都要在几万甚至几十万个词的层面上做优化。

所以 WMD 更多是一个"理论上很优雅"的方法。实际项目里，除非你对速度完全没要求，否则通常会选择更快的替代方案（比如对 WMD 做近似加速，或者直接用 SBERT 算余弦相似度）。

8. 一张表对比

审计工作	句子向量任务	词序感知	上下文感知	实现难度	效果
一家公司	一个完整的句子
员工	词语
员工简历/证件照	词向量
分析公司的方法论	句子嵌入方法
- 全员薪资取平均	简单平均法	❌	❌	⭐	⭐⭐
- 高管权重高，前台权重低	TF-IDF 加权法	❌	❌	⭐⭐	⭐⭐⭐
- 剔除行业共性，只看个性	SIF 加权法	❌	❌	⭐⭐	⭐⭐⭐⭐
- 从头到尾读会议纪要	RNN / LSTM 方法	✅	部分	⭐⭐⭐	⭐⭐⭐
- 请麦肯锡做尽调	BERT / SBERT 方法	✅	✅	⭐⭐⭐⭐	⭐⭐⭐⭐⭐
- 直接算两家公司的迁移成本	WMD 方法	❌	❌	⭐⭐	⭐⭐⭐
一个行业/集团	一个段落
各子公司尽调报告	各句子的向量
合并报表，写行业研报	段落向量

9. 实际场景怎么选？

复制代码

场景是什么？
│
├── 有 GPU、追求最佳效果
│   └── ✅ SBERT / BGE（直接输出高质量句子向量）
│
├── 无 GPU、用 Word2Vec 词向量
│   └── ✅ SIF 加权平均（效果最好、实现不复杂）
│
├── 快速验证想法
│   └── ✅ 简单平均（一行代码）
│
└── 计算两个句子的相似度
    └── ✅ SBERT 或直接上 WMD

好的，我来续写。从"句子语义"自然延伸到"段落语义"，保持你系列文章的风格和类比体系。

10. 从句子到段落：问题的自然延伸

句子向量搞定了。但你一定想到了下一个问题：一段话怎么办？

现实中，我们处理的往往不是一句话，而是一段话、一篇文章。一段话里有多个句子，每个句子都有自己的向量------这不就是"词→句"问题的翻版吗？只是层级往上挪了一层。

层级	基本单元	要解决的问题
词 → 句	词向量	怎么把一叠"证件照"拼成"公司全貌"
句 → 段	句子向量	怎么把多份"尽调报告"合并成"行业研报"

11. 段落级方法：思路高度对应

好消息是，你不需要重新学一套方法。段落级的处理思路，和句子级几乎一一对应：

简单平均（又回到最初的起点......）

把段落里所有句子的向量取平均。一行代码，但主题句和过渡句被同等对待。

加权平均：首句和尾句更重要

在新闻和议论文里，首句往往是中心句，尾句是总结。加权方案可以很简单：首句权重 × 1.5，尾句 × 1.3，其他 × 1.0。也可以用 TextRank 这类算法自动算重要性。

按顺序读（LSTM）

把句子向量按顺序喂给 LSTM，最后一个隐状态就是段落向量。就像按时间顺序读多份会议纪要，理解事情的前因后果。

直接上 BERT（当前主流）

现代做法是直接把整段话塞进 BERT。BERT 最长支持 512 个 token（约 300-400 个中文词），覆盖绝大多数段落没问题。更长的文章，用 Longformer 等长文本模型，或者做滑动窗口 + 聚合。

12. 段落比句子多了什么？

你可能会问：既然方法一样，段落级有什么新东西？

句子内部的核心是：词序和重要度 。到了段落层面，多了两个新核心内容：句序与逻辑关系。

"狗咬人"和"人咬狗"是词序问题。"因为下雨，所以没去"和"没去，因为下雨"------句序变了，强调的重点完全不同。但简单平均会把这两种情况压缩成同一个向量。

主题转换

一句话通常只有一个主题。一段话可能有起承转合：开头抛观点、中间举例、结尾总结。多个子主题之间怎么融合，目前没有统一的"最优方案"。

总结

从"全员平均薪资"到"麦肯锡尽调"，再到"行业研报"------语言被一层一层压缩成向量，每一步都在追问同一个问题：

怎么把多个东西融合成一个，还不丢失最重要的信息？

词向量问的是"怎么融合字词"。句子向量问的是"怎么融合词语"。段落向量问的是"怎么融合句子"。

方法从简单平均开始，一路走到 BERT。工具变了，思路始终没变：把离散的语言，变成可计算的向量。把向量之间的距离，变成语义上的远近。

📢 声明：本文借助AI辅助工具进行资料整理与初稿生成，所有内容均经过作者本人的详细核对、修改与编排，文责自负。

Arora, S., Liang, Y., & Ma, T. (2017). A Simple but Tough-to-Beat Baseline for Sentence Embeddings. In Proceedings of ICLR 2017. OpenReview.net.

【SIF 加权平均原论文】提出平滑逆频率（SIF）句子嵌入方法，"SIF 加权 + 移除第一主成分"的出处，无 GPU 场景下性价比最高的句子向量方案。OpenReview | arXiv
↩︎

给句子做个“语义审计”：从词向量到句子向量的方法论

给句子做个"语义审计"：从词向量到句子向量的方法论

1. 从"证件照"到"公司全貌"

2. 方法一：把所有照片叠在一起取平均

3. 方法二：给重要的人更高权重（TF-IDF）

4. 方法三：剔除"行业共性"，只看个性（SIF）⭐ 推荐

5. 方法四：按时间顺序读会议纪要（RNN / LSTM）

6. 方法五：请麦肯锡做尽调（BERT / SBERT）⭐⭐⭐ 当前主流

7. 方法六：直接算两家公司的"迁移成本"（WMD）

8. 一张表对比

9. 实际场景怎么选？

10. 从句子到段落：问题的自然延伸

11. 段落级方法：思路高度对应

12. 段落比句子多了什么？

总结