lesson-02 NLP 基础-文本表示与词向量

目录

学习笔记

[一、第 1 篇:分词(Tokenization)](#一、第 1 篇:分词(Tokenization))

核心要点

[二、第 2 篇:词向量(Word Vector)](#二、第 2 篇:词向量(Word Vector))

核心要点

[三、第 3 篇:Word2Vec](#三、第 3 篇:Word2Vec)

核心要点

[四、第 4 篇:Gensim](#四、第 4 篇:Gensim)

核心要点

学习心得


学习笔记

一、第 1 篇:分词(Tokenization)

核心要点

  1. 分词是什么

    把一整段连续文字,切成计算机能看懂的最小语义单元(词 / 字 / 子词),是 NLP 所有任务的第一步。

  2. 中文分词难点

    中文没有空格,容易切错(比如 "南京市长江大桥" 切错成 "南京 / 市长 / 江大桥")。

  3. jieba 分词(最经典中文工具)

  • 词典 + 动态规划找概率最高的切分路径

  • 支持精确模式 (切得准)、HMM 模式(能猜词典里没有的新词)

  • 可以加自定义词典,解决专有名词切错问题

  • 还能做词性标注(名词、动词、人名等)

4.现代大模型分词趋势

不用传统分词,改用子词切分(BPE),兼顾词的语义和字的灵活,解决新词问题。


二、第 2 篇:词向量(Word Vector)

核心要点

  1. 词向量是什么

    把文字变成一串数字(向量),让计算机能计算文字的意思。

  2. 核心思想

    "相似的词,挨得近"

    比如 "苹果" 和 "香蕉" 向量距离近,"苹果" 和 "黑板" 距离远。

  3. 作用

    让机器能理解:词语相似度、类比关系(国王 - 男 = 王后 - 女)、语义推理。

  4. 特点

    低维、稠密、可计算,是词表示从

    one-hot(稀疏)分布式表示

    的关键升级。


三、第 3 篇:Word2Vec

核心要点

  1. Word2Vec 是什么

    专门用来快速训练词向量的经典模型,简单、好用、速度快。

  2. 两种训练模式

  • CBOW:用上下文猜中心词(比如用 "我 吃 苹果" 猜 "吃")

  • Skip-gram:用中心词猜上下文(比如用 "吃" 猜 "我、苹果")

  1. 优点
  • 训练快、占资源少

  • 效果好,能学到真实语义关系

  • 是后来所有预训练模型(BERT/GPT)的基础

  1. 缺点

    不能处理一词多义(比如 "苹果" 既是水果也是公司)。


四、第 4 篇:Gensim

核心要点

  1. Gensim 是什么

    Python 里专门做词向量 / 主题模型的工具库,开箱即用。

  2. 主要用途

  • 快速训练Word2Vec词向量

  • 做文本相似度计算

  • 支持 LDA、Doc2Vec 等文本表示

  1. 优势
  • 代码极简,几行就能训出词向量

  • 处理大文本速度快

  • 适合小白入门词向量实战

  1. 常用场景

    词向量训练、近义词查找、文本聚类、推荐系统。


学习心得

  1. NLP 第一步是分词

    没有好的切词,后面模型全白搭;传统工具靠词典,大模型靠子词,各有各的好用。

  2. 词向量是文字变数字的魔法

    机器不懂文字,但懂数字,词向量就是把语义翻译成数学,特别关键。

  3. Word2Vec 是词向量的祖师爷

    简单又强大,虽然有局限,但奠定了现代语义表示的基础。

  4. Gensim 是实战神器

    不用自己写复杂算法,几行代码就能训出词向量,对新手特别友好。

参考链接:

1、https://datawhalechina.github.io/base-llm/#/chapter2/03_tokenization

2、https://datawhalechina.github.io/base-llm/#/chapter2/04_word_vector

3、https://datawhalechina.github.io/base-llm/#/chapter2/05_Word2Vec

4、https://datawhalechina.github.io/base-llm/#/chapter2/06_gensim

相关推荐
枫叶林FYL1 小时前
【机器学习与智慧医疗】T2DM-EWS: 2型糖尿病早期预警系统(多参数集成分类模型)完整实现
人工智能·机器学习·分类
南屹川1 小时前
【缓存技术】Redis实战:从缓存策略到分布式锁
人工智能
Li emily7 小时前
解决了加密货币api多币种订阅时的数据乱序问题
人工智能·python·api·fastapi
山川绿水7 小时前
bugku——PWN——overflow2
人工智能·web安全·网络安全
程序员cxuan7 小时前
微信读书官方发了 skills,把我给秀麻了。
人工智能·后端·程序员
fake_ss1987 小时前
AI时代学习全栈项目开发的新范式
java·人工智能·学习·架构·个人开发·学习方法
nassi_8 小时前
对AI工程问题的一些思考
大数据·人工智能·hadoop
AI技术控8 小时前
《Transformers are Inherently Succinct》论文解读:从“能表达什么”到“多紧凑地表达”
人工智能·python·深度学习·机器学习·自然语言处理
蔡俊锋8 小时前
AI记忆压缩术:从305GB到7.4GB的魔法
人工智能·ai·ai 记忆
Upsy-Daisy8 小时前
AI Agent 项目学习笔记(二):Spring AI 与 ChatClient 主链路解析
人工智能·笔记·学习