CMU Subword Modeling | 08 Non-Concatenative Morphological Processes

在之前的章节我们看到,大部分词构造是通过 Concatenative morphology(连接形态学) 实现的:词素按顺序串联(prefix、suffix、compounding)组成词。例如:

  • walk + edwalked
  • teach + erteacher

这些都是线性、顺序的叠加(concatenate)。

Non-Concatenative morphology(非连接形态学) 则不是这样。它是指:词形构造不是靠简单串联 morphemes(词素),而是靠内部变换、重叠、重复、元音变化等操作 来形成新的词义或语法形式。(维基百科) 这种现象在很多语言中都存在,尤其是像 Semitic languages(闪米特语系) 里的阿拉伯语和希伯来语非常典型。(wikimd.com)

1. 非连接形态学常见形式

我们来分类看看它有哪些典型表现:

1️⃣ Apophony(元音交替) / Ablaut / Umlaut

这是最常见的非连接形态学形式之一:词不是加 suffix,而是通过 内部元音变化 表达不同词形。(维基百科) 英语例子:

Singular Plural
foot feet
goose geese
man men
tooth teeth

(这些不是加 -s ,而是改变元音)(dmort27.github.io)。还有不规则过去式:

  • freezefroze , frozen
  • singsang , sung

这种内部元音变化不是简单的拼接,而是词干内部"重塑",因此属于 non-concatenative morphology 。(维基百科)

2️⃣ Reduplication(重复)

在一些语言里,通过部分或全部重复一个词根来表达语法含义。例如:

  • 假设一个语言里 lo 是"走",
    重复成 lo-lo 可能表示"反复走"或"进行式"。

这种重复不是串联 suffix,而是把根本身映射成新的形式,也是内部变化 的一种。(HLT BME)

3️⃣ Infixation(中缀插入)

不同于 prefix(前缀)或 suffix(后缀),infix 是插入到词内部的 morpheme。例如(某些语言例子): sulat (写)变成 sumulat 表现某个语法意义.这里不是在词尾加东西,而是在词根内部插入 元素。(dmort27.github.io)

4️⃣ Transfixation(穿插词缀 / root-and-pattern)

这是最典型的 Semitic(闪米特)模式,是 root and pattern morphology(根与模板)

  • 词根由一组辅音构成,比如阿拉伯语的 k-t-b(与"写作"相关)
  • 不同语法形式通过在这个根的 元音模式 中穿插元音来表达,比如:
Form Pattern
katab (He wrote) a-a-
kutib (He was written) u-i-
kaatib (Writer) aa-i-

这种根(consonantal root)和模式(vowel pattern)的组合就是 non-concatenative morphology ,因为不是简单把词缀塞在词前或词后。(HLT BME)

5️⃣ Segmental Overwriting / Tonal Overwriting

有些语言不是加词缀,而是 替换词根的一部分音段 或音调来表达语法。例如把某个段替换成另一个段来表达"时态/语态"。在声调语言里,改变声调就可能表达不同含义。(HLT BME)

2. 把非连接形态学想象成什么?

可以把它想象成: 不是把词素"粘贴"在一起构词,而是把词内部的音/形结构重新组织、变化、重复或插入。 (维基百科)

这是语言里另一种非常普遍的构词方式,它强调结构上的 内部操作(internal modification) 而不是只是串在外面。(wikimd.com)

3. 为什么这对 Subword Modeling(子词建模) 有影响?

在前面的章节,我们主要讨论的是 concatenative processes(串联过程)

  • prefixation / suffixation
  • compounding

这些方式可以比较容易地用 linear tokenization 来处理。

⚠️ 但是 非连接形态学不符合线性拼接的假设

✔ 不是简单 token1 + token2 组合

✘ 字符串可能会被内部改写、重复、插入或替换

因此:普通的 subword tokenizer(如 BPE、WordPiece)可能不适合非连接形态学语言。这些统计分割算法倾向于捕捉重复频率模式,而不是理解内部结构规则:

  • 它们可能会"学到" surface form(表面形式),
  • 但不能捕捉"内部变化规则"(比如模式穿插或元音交替)。(电子学术出版社)

这对于像阿拉伯语、希伯来语、非线性派生语言等都有很大挑战。(wikimd.com)

4. 一个更高阶抽象视角:用 函数 来看形态过程

讲义里提到可以把形态变化视为一种 函数映射(function from sign to sign)

morphological processes = functions that map one sign (词形式 + 意义) to another sign. (HLT BME)

  • 对于串联形态:这个函数看起来像 f(root) = root + suffix

  • 而对于非连接形态: 它可能是 f(root) = p(root) ,其中 p 是一个内部变换规则,如重叠、元音替换、插入等。

这个视角很抽象,但它强调:语言的 生成过程比线性拼接更复杂 ,所以如果我们想让分词/表示更贴近真实语言结构,就不能只靠线性 token。(HLT BME)

5. 小结

📌 Non-Concatenative morphology(非连接形态学) = 不是通过串联单元构词,而是通过内部变化(替换、重复、插入、模式穿插等)来表达语法或词义的系统。 (维基百科)

📌 它挑战了我们把词切成线性 token 的简单方法,因为:有时不是"哪里插什么后缀",而是"词内部怎么变化"。 (维基百科)

📌 对 Subword Modeling 来说: 如果一个语言的 morphology(形态)不是串联式的,那传统的 subword 分割算法可能不能很好捕获结构与规则 。 (电子学术出版社)

相关推荐
万少2 小时前
小龙虾(openclaw),轻松玩转自动发帖
前端·人工智能·后端
飞哥数智坊3 小时前
openclaw 重大更新,真的懂我啊
人工智能
KaneLogger3 小时前
AI 时代编程范式迁移的思考
人工智能·程序员·代码规范
飞哥数智坊3 小时前
养虾记第2期:从“人工智障”到“赛博分身”,你的龙虾还缺这两个灵魂
人工智能
飞哥数智坊3 小时前
龙虾虽香,小心扎手!官方点名后,我们该怎么“养虾”?
人工智能
yiyu07164 小时前
3分钟搞懂深度学习AI:实操篇:卷积层
人工智能·深度学习
字节架构前端5 小时前
Skill再回首—深度解读Anthropic官方最新Skill白皮书
人工智能·agent·ai编程
冬奇Lab6 小时前
OpenClaw 深度解析(八):Skill 系统——让 LLM 按需学习工作流
人工智能·开源·源码阅读
冬奇Lab6 小时前
一天一个开源项目(第45篇):OpenAI Agents SDK Python - 轻量级多 Agent 工作流框架,支持 100+ LLM 与实时语音
人工智能·开源·openai