lesson-02 NLP 基础-文本表示与词向量

目录

学习笔记

[一、第 1 篇:分词(Tokenization)](#一、第 1 篇:分词(Tokenization))

核心要点

[二、第 2 篇:词向量(Word Vector)](#二、第 2 篇:词向量(Word Vector))

核心要点

[三、第 3 篇:Word2Vec](#三、第 3 篇:Word2Vec)

核心要点

[四、第 4 篇:Gensim](#四、第 4 篇:Gensim)

核心要点

学习心得


学习笔记

一、第 1 篇:分词(Tokenization)

核心要点

  1. 分词是什么

    把一整段连续文字,切成计算机能看懂的最小语义单元(词 / 字 / 子词),是 NLP 所有任务的第一步。

  2. 中文分词难点

    中文没有空格,容易切错(比如 "南京市长江大桥" 切错成 "南京 / 市长 / 江大桥")。

  3. jieba 分词(最经典中文工具)

  • 词典 + 动态规划找概率最高的切分路径

  • 支持精确模式 (切得准)、HMM 模式(能猜词典里没有的新词)

  • 可以加自定义词典,解决专有名词切错问题

  • 还能做词性标注(名词、动词、人名等)

4.现代大模型分词趋势

不用传统分词,改用子词切分(BPE),兼顾词的语义和字的灵活,解决新词问题。


二、第 2 篇:词向量(Word Vector)

核心要点

  1. 词向量是什么

    把文字变成一串数字(向量),让计算机能计算文字的意思。

  2. 核心思想

    "相似的词,挨得近"

    比如 "苹果" 和 "香蕉" 向量距离近,"苹果" 和 "黑板" 距离远。

  3. 作用

    让机器能理解:词语相似度、类比关系(国王 - 男 = 王后 - 女)、语义推理。

  4. 特点

    低维、稠密、可计算,是词表示从

    one-hot(稀疏)分布式表示

    的关键升级。


三、第 3 篇:Word2Vec

核心要点

  1. Word2Vec 是什么

    专门用来快速训练词向量的经典模型,简单、好用、速度快。

  2. 两种训练模式

  • CBOW:用上下文猜中心词(比如用 "我 吃 苹果" 猜 "吃")

  • Skip-gram:用中心词猜上下文(比如用 "吃" 猜 "我、苹果")

  1. 优点
  • 训练快、占资源少

  • 效果好,能学到真实语义关系

  • 是后来所有预训练模型(BERT/GPT)的基础

  1. 缺点

    不能处理一词多义(比如 "苹果" 既是水果也是公司)。


四、第 4 篇:Gensim

核心要点

  1. Gensim 是什么

    Python 里专门做词向量 / 主题模型的工具库,开箱即用。

  2. 主要用途

  • 快速训练Word2Vec词向量

  • 做文本相似度计算

  • 支持 LDA、Doc2Vec 等文本表示

  1. 优势
  • 代码极简,几行就能训出词向量

  • 处理大文本速度快

  • 适合小白入门词向量实战

  1. 常用场景

    词向量训练、近义词查找、文本聚类、推荐系统。


学习心得

  1. NLP 第一步是分词

    没有好的切词,后面模型全白搭;传统工具靠词典,大模型靠子词,各有各的好用。

  2. 词向量是文字变数字的魔法

    机器不懂文字,但懂数字,词向量就是把语义翻译成数学,特别关键。

  3. Word2Vec 是词向量的祖师爷

    简单又强大,虽然有局限,但奠定了现代语义表示的基础。

  4. Gensim 是实战神器

    不用自己写复杂算法,几行代码就能训出词向量,对新手特别友好。

参考链接:

1、https://datawhalechina.github.io/base-llm/#/chapter2/03_tokenization

2、https://datawhalechina.github.io/base-llm/#/chapter2/04_word_vector

3、https://datawhalechina.github.io/base-llm/#/chapter2/05_Word2Vec

4、https://datawhalechina.github.io/base-llm/#/chapter2/06_gensim

相关推荐
半兽先生11 小时前
03阶段:机器学习
人工智能·机器学习
.柒宇.11 小时前
LLM大模型认识
人工智能·深度学习·神经网络·阿里云·ai
泉城嵌入式11 小时前
AI工程概念解析:从提示词工程到驾驭工程
人工智能
ModelWhale11 小时前
和鲸科技CEO范向伟亮相“AI极客夜话”:畅谈智能体时代的人才培养与创业路径
人工智能·科技
这张生成的图像能检测吗11 小时前
(论文速读)ControlNet-XS: 从反馈控制系统视角重新思考图像生成的控制机制
人工智能·计算机视觉·controlnet·扩散模型·条件控制扩散模型
Ztop11 小时前
一文说清ChatGPT Pro 5x 和 20x 区别,以及国内如何升级ChatGPT Pro 最新教程
人工智能·gpt·chatgpt
AI品信智慧数智人11 小时前
AI赋能景区|山东品信智慧科技,解锁文旅数字化新范式✨
人工智能·科技·旅游
码云数智-大飞11 小时前
CSS 优先级详解:告别样式冲突,掌控网页“层叠”艺术
人工智能·python·tensorflow
墨染天姬11 小时前
【AI】稀疏注意力机制
人工智能
小白跃升坊11 小时前
1Panel AI 终端:用自然语言,把 Linux 运维变简单
人工智能·ai·aigc·aiagent·openclaw