CMU Subword Modeling | 08 Non-Concatenative Morphological Processes

在之前的章节我们看到,大部分词构造是通过 Concatenative morphology(连接形态学) 实现的:词素按顺序串联(prefix、suffix、compounding)组成词。例如:

  • walk + edwalked
  • teach + erteacher

这些都是线性、顺序的叠加(concatenate)。

Non-Concatenative morphology(非连接形态学) 则不是这样。它是指:词形构造不是靠简单串联 morphemes(词素),而是靠内部变换、重叠、重复、元音变化等操作 来形成新的词义或语法形式。(维基百科) 这种现象在很多语言中都存在,尤其是像 Semitic languages(闪米特语系) 里的阿拉伯语和希伯来语非常典型。(wikimd.com)

1. 非连接形态学常见形式

我们来分类看看它有哪些典型表现:

1️⃣ Apophony(元音交替) / Ablaut / Umlaut

这是最常见的非连接形态学形式之一:词不是加 suffix,而是通过 内部元音变化 表达不同词形。(维基百科) 英语例子:

Singular Plural
foot feet
goose geese
man men
tooth teeth

(这些不是加 -s ,而是改变元音)(dmort27.github.io)。还有不规则过去式:

  • freezefroze , frozen
  • singsang , sung

这种内部元音变化不是简单的拼接,而是词干内部"重塑",因此属于 non-concatenative morphology 。(维基百科)

2️⃣ Reduplication(重复)

在一些语言里,通过部分或全部重复一个词根来表达语法含义。例如:

  • 假设一个语言里 lo 是"走",
    重复成 lo-lo 可能表示"反复走"或"进行式"。

这种重复不是串联 suffix,而是把根本身映射成新的形式,也是内部变化 的一种。(HLT BME)

3️⃣ Infixation(中缀插入)

不同于 prefix(前缀)或 suffix(后缀),infix 是插入到词内部的 morpheme。例如(某些语言例子): sulat (写)变成 sumulat 表现某个语法意义.这里不是在词尾加东西,而是在词根内部插入 元素。(dmort27.github.io)

4️⃣ Transfixation(穿插词缀 / root-and-pattern)

这是最典型的 Semitic(闪米特)模式,是 root and pattern morphology(根与模板)

  • 词根由一组辅音构成,比如阿拉伯语的 k-t-b(与"写作"相关)
  • 不同语法形式通过在这个根的 元音模式 中穿插元音来表达,比如:
Form Pattern
katab (He wrote) a-a-
kutib (He was written) u-i-
kaatib (Writer) aa-i-

这种根(consonantal root)和模式(vowel pattern)的组合就是 non-concatenative morphology ,因为不是简单把词缀塞在词前或词后。(HLT BME)

5️⃣ Segmental Overwriting / Tonal Overwriting

有些语言不是加词缀,而是 替换词根的一部分音段 或音调来表达语法。例如把某个段替换成另一个段来表达"时态/语态"。在声调语言里,改变声调就可能表达不同含义。(HLT BME)

2. 把非连接形态学想象成什么?

可以把它想象成: 不是把词素"粘贴"在一起构词,而是把词内部的音/形结构重新组织、变化、重复或插入。 (维基百科)

这是语言里另一种非常普遍的构词方式,它强调结构上的 内部操作(internal modification) 而不是只是串在外面。(wikimd.com)

3. 为什么这对 Subword Modeling(子词建模) 有影响?

在前面的章节,我们主要讨论的是 concatenative processes(串联过程)

  • prefixation / suffixation
  • compounding

这些方式可以比较容易地用 linear tokenization 来处理。

⚠️ 但是 非连接形态学不符合线性拼接的假设

✔ 不是简单 token1 + token2 组合

✘ 字符串可能会被内部改写、重复、插入或替换

因此:普通的 subword tokenizer(如 BPE、WordPiece)可能不适合非连接形态学语言。这些统计分割算法倾向于捕捉重复频率模式,而不是理解内部结构规则:

  • 它们可能会"学到" surface form(表面形式),
  • 但不能捕捉"内部变化规则"(比如模式穿插或元音交替)。(电子学术出版社)

这对于像阿拉伯语、希伯来语、非线性派生语言等都有很大挑战。(wikimd.com)

4. 一个更高阶抽象视角:用 函数 来看形态过程

讲义里提到可以把形态变化视为一种 函数映射(function from sign to sign)

morphological processes = functions that map one sign (词形式 + 意义) to another sign. (HLT BME)

  • 对于串联形态:这个函数看起来像 f(root) = root + suffix

  • 而对于非连接形态: 它可能是 f(root) = p(root) ,其中 p 是一个内部变换规则,如重叠、元音替换、插入等。

这个视角很抽象,但它强调:语言的 生成过程比线性拼接更复杂 ,所以如果我们想让分词/表示更贴近真实语言结构,就不能只靠线性 token。(HLT BME)

5. 小结

📌 Non-Concatenative morphology(非连接形态学) = 不是通过串联单元构词,而是通过内部变化(替换、重复、插入、模式穿插等)来表达语法或词义的系统。 (维基百科)

📌 它挑战了我们把词切成线性 token 的简单方法,因为:有时不是"哪里插什么后缀",而是"词内部怎么变化"。 (维基百科)

📌 对 Subword Modeling 来说: 如果一个语言的 morphology(形态)不是串联式的,那传统的 subword 分割算法可能不能很好捕获结构与规则 。 (电子学术出版社)

相关推荐
亦复何言??1 天前
BeyondMimic 论文解析
人工智能·算法·机器人
Lee川1 天前
🛠️ LangChain Tools 实战指南:让 AI 拥有“动手能力”
人工智能
gorgeous(๑>؂<๑)1 天前
【CVPR26-索尼】EW-DETR:通过增量低秩检测Transformer实现动态世界目标检测
人工智能·深度学习·目标检测·计算机视觉·transformer
xianluohuanxiang1 天前
新能源功率预测的“生死局”:从“能报曲线”到“能做收益”,中间差的不是一点算法
人工智能
码农垦荒笔记1 天前
Claude Code 2026 年 3 月全面进化:Auto 模式、Computer Use 与云端持续执行重塑 AI 编程工作流
人工智能·ai 编程·claude code·agentic coding·computer use
threerocks1 天前
【Claude Code 系列课程】01 | Claude Code 架构全览
人工智能·ai编程·claude
熊猫代跑得快1 天前
Agent 通用架构入门学习
人工智能·agent·智能体
格林威1 天前
Baumer相机锂电池极片裁切毛刺检测:防止内部短路的 5 个核心方法,附 OpenCV+Halcon 实战代码!
开发语言·人工智能·数码相机·opencv·计算机视觉·c#·视觉检测
codeの诱惑1 天前
推荐算法(一):数学基础回顾——勾股定理与欧氏距离
算法·机器学习·推荐算法
codeの诱惑1 天前
推荐算法(三):余弦定理和余弦相似度的关系及公式推导
人工智能·机器学习·推荐算法