CMU Subword Modeling | 08 Non-Concatenative Morphological Processes

在之前的章节我们看到,大部分词构造是通过 Concatenative morphology(连接形态学) 实现的:词素按顺序串联(prefix、suffix、compounding)组成词。例如:

  • walk + edwalked
  • teach + erteacher

这些都是线性、顺序的叠加(concatenate)。

Non-Concatenative morphology(非连接形态学) 则不是这样。它是指:词形构造不是靠简单串联 morphemes(词素),而是靠内部变换、重叠、重复、元音变化等操作 来形成新的词义或语法形式。(维基百科) 这种现象在很多语言中都存在,尤其是像 Semitic languages(闪米特语系) 里的阿拉伯语和希伯来语非常典型。(wikimd.com)

1. 非连接形态学常见形式

我们来分类看看它有哪些典型表现:

1️⃣ Apophony(元音交替) / Ablaut / Umlaut

这是最常见的非连接形态学形式之一:词不是加 suffix,而是通过 内部元音变化 表达不同词形。(维基百科) 英语例子:

Singular Plural
foot feet
goose geese
man men
tooth teeth

(这些不是加 -s ,而是改变元音)(dmort27.github.io)。还有不规则过去式:

  • freezefroze , frozen
  • singsang , sung

这种内部元音变化不是简单的拼接,而是词干内部"重塑",因此属于 non-concatenative morphology 。(维基百科)

2️⃣ Reduplication(重复)

在一些语言里,通过部分或全部重复一个词根来表达语法含义。例如:

  • 假设一个语言里 lo 是"走",
    重复成 lo-lo 可能表示"反复走"或"进行式"。

这种重复不是串联 suffix,而是把根本身映射成新的形式,也是内部变化 的一种。(HLT BME)

3️⃣ Infixation(中缀插入)

不同于 prefix(前缀)或 suffix(后缀),infix 是插入到词内部的 morpheme。例如(某些语言例子): sulat (写)变成 sumulat 表现某个语法意义.这里不是在词尾加东西,而是在词根内部插入 元素。(dmort27.github.io)

4️⃣ Transfixation(穿插词缀 / root-and-pattern)

这是最典型的 Semitic(闪米特)模式,是 root and pattern morphology(根与模板)

  • 词根由一组辅音构成,比如阿拉伯语的 k-t-b(与"写作"相关)
  • 不同语法形式通过在这个根的 元音模式 中穿插元音来表达,比如:
Form Pattern
katab (He wrote) a-a-
kutib (He was written) u-i-
kaatib (Writer) aa-i-

这种根(consonantal root)和模式(vowel pattern)的组合就是 non-concatenative morphology ,因为不是简单把词缀塞在词前或词后。(HLT BME)

5️⃣ Segmental Overwriting / Tonal Overwriting

有些语言不是加词缀,而是 替换词根的一部分音段 或音调来表达语法。例如把某个段替换成另一个段来表达"时态/语态"。在声调语言里,改变声调就可能表达不同含义。(HLT BME)

2. 把非连接形态学想象成什么?

可以把它想象成: 不是把词素"粘贴"在一起构词,而是把词内部的音/形结构重新组织、变化、重复或插入。 (维基百科)

这是语言里另一种非常普遍的构词方式,它强调结构上的 内部操作(internal modification) 而不是只是串在外面。(wikimd.com)

3. 为什么这对 Subword Modeling(子词建模) 有影响?

在前面的章节,我们主要讨论的是 concatenative processes(串联过程)

  • prefixation / suffixation
  • compounding

这些方式可以比较容易地用 linear tokenization 来处理。

⚠️ 但是 非连接形态学不符合线性拼接的假设

✔ 不是简单 token1 + token2 组合

✘ 字符串可能会被内部改写、重复、插入或替换

因此:普通的 subword tokenizer(如 BPE、WordPiece)可能不适合非连接形态学语言。这些统计分割算法倾向于捕捉重复频率模式,而不是理解内部结构规则:

  • 它们可能会"学到" surface form(表面形式),
  • 但不能捕捉"内部变化规则"(比如模式穿插或元音交替)。(电子学术出版社)

这对于像阿拉伯语、希伯来语、非线性派生语言等都有很大挑战。(wikimd.com)

4. 一个更高阶抽象视角:用 函数 来看形态过程

讲义里提到可以把形态变化视为一种 函数映射(function from sign to sign)

morphological processes = functions that map one sign (词形式 + 意义) to another sign. (HLT BME)

  • 对于串联形态:这个函数看起来像 f(root) = root + suffix

  • 而对于非连接形态: 它可能是 f(root) = p(root) ,其中 p 是一个内部变换规则,如重叠、元音替换、插入等。

这个视角很抽象,但它强调:语言的 生成过程比线性拼接更复杂 ,所以如果我们想让分词/表示更贴近真实语言结构,就不能只靠线性 token。(HLT BME)

5. 小结

📌 Non-Concatenative morphology(非连接形态学) = 不是通过串联单元构词,而是通过内部变化(替换、重复、插入、模式穿插等)来表达语法或词义的系统。 (维基百科)

📌 它挑战了我们把词切成线性 token 的简单方法,因为:有时不是"哪里插什么后缀",而是"词内部怎么变化"。 (维基百科)

📌 对 Subword Modeling 来说: 如果一个语言的 morphology(形态)不是串联式的,那传统的 subword 分割算法可能不能很好捕获结构与规则 。 (电子学术出版社)

相关推荐
小程故事多_802 小时前
RAG,基于字号频率的内容切分算法,非常强
人工智能·算法·aigc
IT 行者2 小时前
OpenClaw 浏览器自动化测试的那些坑(一):Linux Snap 版本的 Chromium 无法使用托管模式
linux·运维·服务器·人工智能
肾透侧视攻城狮2 小时前
《掌握 tf.data API:从 Dataset 创建、map/batch/shuffle 操作到预取/缓存优化的完整实战》
人工智能·深度学习·tensorflow·tf.data api·dataset 对象·map/batch/shuff·预取/并行化/缓存机制
大模型任我行2 小时前
百度:动态偏好选择提升LLM对齐稳定性
人工智能·语言模型·自然语言处理·论文笔记
A尘埃2 小时前
深度学习框架:Keras
人工智能·深度学习·keras
回眸&啤酒鸭2 小时前
【回眸】AI新鲜事(五)——2026按照自己的理想型培养自己
人工智能
AI周红伟2 小时前
周红伟:智能体构建实操:OpenClaw + Agent Skills + Seedance + RAG 案例实操
大数据·人工智能·大模型·智能体
海兰2 小时前
Elastic Stack 9.3.0 日志异常检测
人工智能
AI英德西牛仔2 小时前
豆包图片导出
人工智能