CMU Subword Modeling | 02 Signs, Minimal Signs, and Compositionality

1. 核心问题:什么是 Sign(符号)?

在自然语言处理里,我们希望模型真正"理解"语言,而不仅仅是把字符拼凑在一起。为此,我们要理解一个最基础的概念。

Sign = Signifier + Signified

这个想法来自Semiotics(符号学)

  • Signifier(能观察到的形式):我们看到或听到的东西
  • Signified(意义):它对应的含义
  • Sign(符号):是前两者的一对配对关系

这意味着,符号不是单独的形式,也不是单独的含义,而是形式和含义的"契合"。举个日常例子:

  • 一块黄色的菱形标志 + 上面画着石头 → 这就是一个 road sign(路牌)
    Signifier : 菱形、黄色、图案
    Signified : "小心落石"(watch for falling rocks)
    Sign : 二者的配对(真正传达的意思)(dmort27.github.io)

这和 NLP 的 tokenization(分词)有一个关键关联:

如果我们把词拆成一些没有意义的碎片(例如随意的字母组合),那就不是 Sign ,模型也学不到真正的语义。(dmort27.github.io)

2. Minimal Signs(最小有意义符号)

在语言学里,有一个概念叫 Morpheme(词素)

  • 这是语言中最小的有意义单位(minimal meaningful unit)

  • 例如,在 walked 这个词里,

    • walk 是一个 morpheme(有意义)
    • -ed 也是一个 morpheme(表示过去式)
    • 组合在一起 walk + -ed 就是这个词的意义组合(dmort27.github.io)

Morphemes 就像语言的积木,有意义而且可以组合。

3. Compositionality(组合性)是什么?

这是语言最重要的一个性质之一:意义可以从更小的部分组合出来。例如:

复制代码
walk + -ed = walked(动作发生在过去)
hunt + -er = hunter(做某事的人)

这些组合是可预测的,你只要懂各个部分的意义,就可以"推理出"整体意义。也就是说:

合成词的意义 ≈ 各个部分的意义组合 (Compositionality)(dmort27.github.io)

这种组合性在 NLP 里非常重要:

  • 如果你的 token(分词单元)是真正的 SignsMorphemes
  • 那么模型可以从它们的组合中推断意义;
  • 反之,如果你的 token 只是一堆随机字符,例如 co mp os it io na li ty ,那么它们就不是 Signs ,模型无法用组合规律去推意义。(dmort27.github.io)

4. 对比说明

Token 类型 有意义? 能组合出语义?
Characters(字符)
RandomFragments(随意碎片)
Morphemes(词素)
Words(完整单词) 有时候能,但不够细粒度
Good Subword Tokens(好的子词) 接近 ✅ 近似组合性
Bad Subword Tokens(随意子词)

好的 token 不是只看形式的频率,而要像语言学上的意义单位那样有意义并可组合 。(dmort27.github.io) 这是课程背后的核心思想:tokenization good ➜ model representation better。

5. 为什么这对 Subword Modeling(子词建模)至关重要?

在上一讲我们提到过,Word-Level Tokenization(基于单词的分词)有两个核心问题:

  1. 词表太大(large vocabulary) → data sparsity(数据稀疏)
  2. 很多 rare words(稀有词)无法学到好 embedding(词向量)

Subword Tokenization 被提出就是为了解决这两个问题。但:如果 subword tokens 只是任意切出来的字母片段,就像句子里的 random fragments,它没有意义 ,也就无法组合成有意义的 representation(表示)。(dmort27.github.io)

真正有用的 token 不是随便的字符,也不是完整的大词,而是那些实际能表示内容并可组合出更复杂意义的最小有意义单位 ------ 最好是 morphemes(词素)或者近似的 compositional signs。 (dmort27.github.io)

相关推荐
烁烁闪闪烁烁1 小时前
【weelinking系列Claude教程】 04 - Claude Code 安装与配置
人工智能·chatgpt·ai编程·claude·cursor·claude code·opencode
wwj20241 小时前
红海云数字化如何赋能“十五五”人才规划高效落地
大数据·人工智能
老金带你玩AI1 小时前
老金开源Agent Teams编排Skill:一句话自动组队,手动挡时代结束了
人工智能
TYFHVB121 小时前
2026工业级CRM系统选型攻略:6款主流产品深度评测与场景适配剖析
大数据·人工智能
独自归家的兔2 小时前
阿里 Qwen-Image-2.0 深度评测:中文 AI 绘画的新标杆
人工智能
AI智能观察2 小时前
星海智能体重磅发布:TIMUS.AI 打造 AI 时代企业对客智能体平台
人工智能·数字人·智慧展厅·智能体·数字展厅·智慧营销
相思半2 小时前
告别聊天机器人!2026 智能体元年:Claude 4.6 vs GPT-5.3 vs OpenClaw 全方位对比
人工智能·gpt·深度学习·claude·codex·智能体·seedance
玉梅小洋2 小时前
2026年2月大模型性能对比分析报告
人工智能·ai·大模型·ai编程·ai工具
芝士爱知识a2 小时前
[2026深度测评] AI期权交易平台推荐榜单:AlphaGBM领跑,量化交易的新范式
开发语言·数据结构·人工智能·python·alphagbm·ai期权工具