CMU Subword Modeling | 03 Productivity and Generalization

Productivity & Generalization(生产力与泛化)这一讲的核心思想是:语言中的形态学规则 / 子词组合规则怎样推广到新词? 也就是说,我们不只是看 一个词怎么表示,我们关心 一个模式能不能"生"出新词。(dmort27.github.io)

1. Formalizing Tokenization(形式化 Tokenization)

老师一开始先把 Tokenization(分词 / 子词分割)抽象成数学上的函数,给了一个统一的视角来看语言建模和形态组合。

我们把字符或音素序列(graphemes/phonemes)看成属于集合 (Σ^*),把 Tokens(id 或 morpheme ID)看成属于集合 (Δ^*)

  • Tokenization:一个函数 (τ : Σ^* → Δ^*)
  • Detokenization(spell-out):反过来把 token 序列还原成字符/音素序列的函数 (κ : Δ^* → Σ^*)

在像 BPE(Byte-Pair Encoding) 这样的 Tokenizer 里,(κ(τ(σ)) = σ)(lossless)。但在真实的 morpheme segmentation(词素分割)里,不一定是 lossless。

2. 应用举例:为什么我们讨论 Productivity?

老师通过经典的 Wug Test(Wug 实验) 来说明。

Jean Berko Gleason 的实验 :孩子们看到一个从未见过的词 wug ,老师问"这个词的复数是什么?"大多数孩子回答 "wugs",自动加上 -s 来复数化。

这说明:孩子不是简单记忆单词表。他们学到了 规则 ,并且可以 推广到新词(non-ce words) 。(dmort27.github.io)

👉 这就是 Productivity(形态生产力) 的核心含义:一个 morphological construction(形态构造方式)是不是能应用到新词上,并生成新形式?(dmort27.github.io)

3. Productivity(生产力)意味着什么?

讲义给了一个很直观的定义:Productivity = 规则能够被有效地泛化到新输入,并产生新输出的程度。 (dmort27.github.io) 换句话说:

  • 如果一个形态规则很容易应用到之前没见过的词 → 它就是 high productivity(高生产力)
  • 如果一个规则只针对固定几组词 → 它就是 low productivity(低生产力)
  • 有的规则介于两者之间,只在特定条件下有效 → 叫 restricted productivity(受限生产力)

图像比喻 :把 Productivity 想象成一条连续的谱线------从 fossilized("化石化"的老词规则)到 default("默认的,高泛化规则")。(dmort27.github.io)

4. Productivity & Morphological Rules

一个 morphological construction / affix 会是 productive,当且仅当: 它出现在许多、并且相对 low-frequency(低频)的词类型上。换句话说,它不是靠记忆已有词,而是学到了一般化的模式。(dmort27.github.io) 例如:

  • English plural --s:很广泛出现 → 高生产力
  • Plural --en (如 oxen , children):只在特定词出现 → 低生产力
  • Latin/借词前缀 ~ity/-ness:有特定词义类别限制 → 受限生产力

5. Why is Productivity Useful for NLP & Subwords?

那么这和我们做 Tokenization / 子词建模有什么关系?

语言模型(如 BERT / GPT)要处理 开域词(open vocabulary) :词汇会不断创造新的组合(新词、新派生形式、新拼写)。(dmort27.github.io)

要做到这一点,模型不仅要把已有词看成一个独立 symbol,还要 理解规则本身,才能:

✅ 推断新派生词

✅ 处理以前未遇见过的组合

✅ 让表示(representation)更具泛化性

这正是 Subword Tokenization 的一大优势:

  • 它让模型学到的是规则级别的结构而不是单个词的例外记忆
  • 因此不仅有意义(meaningful),还更容易泛化(generalize)

6. 小结

语言现象 核心概念
Productivity(生产力) 一个语言构造能否应用到新词上
High vs Low Productivity 规则是不是可以泛化
Generalization 模式可以推广到未见过的例子
Relation to Subword Modeling 模型不只记词,而是学结构规则

这一讲想传达的核心思想是:真正强大的语言系统不是记住很多词,而是理解构造规则,并能把它们用到新的场景中。 (dmort27.github.io)

相关推荐
云烟成雨TD4 分钟前
Spring AI Alibaba 1.x 系列【28】Nacos Skill 管理中心功能说明
java·人工智能·spring
AI医影跨模态组学5 分钟前
Cancer Letters(IF=10.1)中科院自动化研究所田捷等团队:整合纵向MRI与活检全切片图像用于乳腺癌新辅助治疗反应的早期预测及个体化管理
人工智能·深度学习·论文·医学·医学影像
oioihoii6 分钟前
Graphify 简明指南
人工智能
王飞飞不会飞11 分钟前
Mac 安装Hermes Agent 过程记录
运维·深度学习·机器学习
数字供应链安全产品选型13 分钟前
AI全生命周期安全:从开发到下线,悬镜安全灵境AIDR如何覆盖智能体每一个环节?
人工智能
2501_9333295514 分钟前
企业舆情处置实战:Infoseek数字公关AI中台技术架构与功能解析
大数据·人工智能·架构·数据库开发
带娃的IT创业者16 分钟前
深度解析 Claude Design:如何利用 Anthropic 最新设计范式构建 AI 原生应用
人工智能·python·llm·claude·应用开发·anthropic·ai原生应用
QC·Rex18 分钟前
Spring AI MCP Apps 实战:打造聊天与富 UI 融合的智能化应用
人工智能·spring·ui·spring ai·mcp
koharu12321 分钟前
大模型后训练全解:SFT、RLHF/PPO、DPO 的原理、实践与选择
人工智能·llm·后训练
AI科技星30 分钟前
精细结构常数α的几何本源:从第一性原理的求导证明、量纲分析与全域验证
算法·机器学习·数学建模·数据挖掘·量子计算