lesson-02 NLP 基础-文本表示与词向量

深瞳智检2026-03-23 20:37

目录

[一、第 1 篇：分词（Tokenization）](#一、第 1 篇：分词（Tokenization）)

[二、第 2 篇：词向量（Word Vector）](#二、第 2 篇：词向量（Word Vector）)

[三、第 3 篇：Word2Vec](#三、第 3 篇：Word2Vec)

[四、第 4 篇：Gensim](#四、第 4 篇：Gensim)

学习笔记

一、第 1 篇：分词（Tokenization）

核心要点

分词是什么

把一整段连续文字，切成计算机能看懂的最小语义单元（词 / 字 / 子词），是 NLP 所有任务的第一步。
中文分词难点

中文没有空格，容易切错（比如 "南京市长江大桥" 切错成 "南京 / 市长 / 江大桥"）。
jieba 分词（最经典中文工具）

靠词典 + 动态规划找概率最高的切分路径
支持精确模式 （切得准）、HMM 模式（能猜词典里没有的新词）
可以加自定义词典，解决专有名词切错问题
还能做词性标注（名词、动词、人名等）

4.现代大模型分词趋势

不用传统分词，改用子词切分（BPE），兼顾词的语义和字的灵活，解决新词问题。

二、第 2 篇：词向量（Word Vector）

核心要点

词向量是什么

把文字变成一串数字（向量），让计算机能计算文字的意思。
核心思想

"相似的词，挨得近"

比如 "苹果" 和 "香蕉" 向量距离近，"苹果" 和 "黑板" 距离远。
作用

让机器能理解：词语相似度、类比关系（国王 - 男 = 王后 - 女）、语义推理。
特点

低维、稠密、可计算，是词表示从

one-hot（稀疏）到分布式表示

的关键升级。

三、第 3 篇：Word2Vec

核心要点

Word2Vec 是什么

专门用来快速训练词向量的经典模型，简单、好用、速度快。
两种训练模式

CBOW：用上下文猜中心词（比如用 "我吃苹果" 猜 "吃"）
Skip-gram：用中心词猜上下文（比如用 "吃" 猜 "我、苹果"）

优点

训练快、占资源少
效果好，能学到真实语义关系
是后来所有预训练模型（BERT/GPT）的基础

缺点

不能处理一词多义（比如 "苹果" 既是水果也是公司）。

四、第 4 篇：Gensim

核心要点

Gensim 是什么

Python 里专门做词向量 / 主题模型的工具库，开箱即用。
主要用途

快速训练Word2Vec词向量
做文本相似度计算
支持 LDA、Doc2Vec 等文本表示

优势

代码极简，几行就能训出词向量
处理大文本速度快
适合小白入门词向量实战

常用场景

词向量训练、近义词查找、文本聚类、推荐系统。

学习心得

NLP 第一步是分词

没有好的切词，后面模型全白搭；传统工具靠词典，大模型靠子词，各有各的好用。
词向量是文字变数字的魔法

机器不懂文字，但懂数字，词向量就是把语义翻译成数学，特别关键。
Word2Vec 是词向量的祖师爷

简单又强大，虽然有局限，但奠定了现代语义表示的基础。
Gensim 是实战神器

不用自己写复杂算法，几行代码就能训出词向量，对新手特别友好。

参考链接：

1、https://datawhalechina.github.io/base-llm/#/chapter2/03_tokenization

2、https://datawhalechina.github.io/base-llm/#/chapter2/04_word_vector

3、https://datawhalechina.github.io/base-llm/#/chapter2/05_Word2Vec

4、https://datawhalechina.github.io/base-llm/#/chapter2/06_gensim

上一篇：QCLAW 浏览器联通指南：原理、架构与配置详解

下一篇：Django全栈开发入门：构建一个博客系统

热门推荐

01GitHub 镜像站点 022026年7月AI圈大地震：GPT-5.6被政府限制、Claude入驻Slack、Anthropic自研芯片 03如何新建文件夹？电脑新建文件夹的4种方法 04幻兽帕鲁 - 服务器管理员权限与 GM 命令完全指南 05AI科技热点日报 | 2026年07月01日 06国内可直接用、免费额度/永久免费的大模型API清单（含 SiliconFlow、火山、阿里、智谱、百度、Kimi、DeepSeek、DMXAPI 等）07AI 编程 IDE 全景解析 2026：Agent 全面接管开发链路 08【AI前线观察】2026年国产开源大模型全面横评：从 DeepSeek V4 到 Kimi K3，谁才是开发者的最优选择？092026 年 AI 大模型 & AI 编程工具实战全总结 102026 国产 AI 大模型横评：DeepSeek、通义千问、Kimi、文心一言、星火、豆包谁更能打？