CMU Subword Modeling | 08 Non-Concatenative Morphological Processes

在之前的章节我们看到，大部分词构造是通过 Concatenative morphology（连接形态学） 实现的：词素按顺序串联（prefix、suffix、compounding）组成词。例如：

walk + ed → walked
teach + er → teacher

这些都是线性、顺序的叠加（concatenate）。

Non-Concatenative morphology（非连接形态学） 则不是这样。它是指：词形构造不是靠简单串联 morphemes（词素），而是靠内部变换、重叠、重复、元音变化等操作 来形成新的词义或语法形式。(维基百科) 这种现象在很多语言中都存在，尤其是像 Semitic languages（闪米特语系） 里的阿拉伯语和希伯来语非常典型。(wikimd.com)

1. 非连接形态学常见形式

我们来分类看看它有哪些典型表现：

1️⃣ Apophony（元音交替） / Ablaut / Umlaut

这是最常见的非连接形态学形式之一：词不是加 suffix，而是通过 内部元音变化 表达不同词形。(维基百科) 英语例子：

Singular	Plural
foot	feet
goose	geese
man	men
tooth	teeth

（这些不是加 -s ，而是改变元音）(dmort27.github.io)。还有不规则过去式：

freeze → froze , frozen
sing → sang , sung

这种内部元音变化不是简单的拼接，而是词干内部"重塑"，因此属于 non-concatenative morphology 。(维基百科)

2️⃣ Reduplication（重复）

在一些语言里，通过部分或全部重复一个词根来表达语法含义。例如：

假设一个语言里 lo 是"走"，
重复成 lo-lo 可能表示"反复走"或"进行式"。

这种重复不是串联 suffix，而是把根本身映射成新的形式，也是内部变化 的一种。(HLT BME)

3️⃣ Infixation（中缀插入）

不同于 prefix（前缀）或 suffix（后缀），infix 是插入到词内部的 morpheme。例如（某些语言例子）： sulat （写）变成 sumulat 表现某个语法意义.这里不是在词尾加东西，而是在词根内部插入元素。(dmort27.github.io)

4️⃣ Transfixation（穿插词缀 / root-and-pattern）

这是最典型的 Semitic（闪米特）模式，是 root and pattern morphology（根与模板）：

词根由一组辅音构成，比如阿拉伯语的 k-t-b（与"写作"相关）
不同语法形式通过在这个根的 元音模式 中穿插元音来表达，比如：

Form	Pattern
katab (He wrote)	a-a-
kutib (He was written)	u-i-
kaatib (Writer)	aa-i-

这种根（consonantal root）和模式（vowel pattern）的组合就是 non-concatenative morphology ，因为不是简单把词缀塞在词前或词后。(HLT BME)

5️⃣ Segmental Overwriting / Tonal Overwriting

有些语言不是加词缀，而是 替换词根的一部分音段 或音调来表达语法。例如把某个段替换成另一个段来表达"时态/语态"。在声调语言里，改变声调就可能表达不同含义。(HLT BME)

2. 把非连接形态学想象成什么？

可以把它想象成： 不是把词素"粘贴"在一起构词，而是把词内部的音/形结构重新组织、变化、重复或插入。 (维基百科)

这是语言里另一种非常普遍的构词方式，它强调结构上的 内部操作（internal modification） 而不是只是串在外面。(wikimd.com)

3. 为什么这对 Subword Modeling（子词建模）有影响？

在前面的章节，我们主要讨论的是 concatenative processes（串联过程）：

prefixation / suffixation
compounding

这些方式可以比较容易地用 linear tokenization 来处理。

⚠️ 但是 非连接形态学不符合线性拼接的假设：

✔ 不是简单 token1 + token2 组合

✘ 字符串可能会被内部改写、重复、插入或替换

因此：普通的 subword tokenizer（如 BPE、WordPiece）可能不适合非连接形态学语言。这些统计分割算法倾向于捕捉重复频率模式，而不是理解内部结构规则：

它们可能会"学到" surface form（表面形式），
但不能捕捉"内部变化规则"（比如模式穿插或元音交替）。(电子学术出版社)

这对于像阿拉伯语、希伯来语、非线性派生语言等都有很大挑战。(wikimd.com)

4. 一个更高阶抽象视角：用函数来看形态过程

讲义里提到可以把形态变化视为一种 函数映射（function from sign to sign）：

morphological processes = functions that map one sign (词形式 + 意义) to another sign. (HLT BME)

对于串联形态：这个函数看起来像 f(root) = root + suffix
而对于非连接形态：它可能是 f(root) = p(root) ，其中 p 是一个内部变换规则，如重叠、元音替换、插入等。

这个视角很抽象，但它强调：语言的 生成过程比线性拼接更复杂 ，所以如果我们想让分词/表示更贴近真实语言结构，就不能只靠线性 token。(HLT BME)

5. 小结

📌 Non-Concatenative morphology（非连接形态学） = 不是通过串联单元构词，而是通过内部变化（替换、重复、插入、模式穿插等）来表达语法或词义的系统。 (维基百科)

📌 它挑战了我们把词切成线性 token 的简单方法，因为：有时不是"哪里插什么后缀"，而是"词内部怎么变化"。 (维基百科)

📌 对 Subword Modeling 来说：如果一个语言的 morphology（形态）不是串联式的，那传统的 subword 分割算法可能不能很好捕获结构与规则 。 (电子学术出版社)