Masked Language Models是什么？

小苑同学2025-12-19 10:41

这个问题很关键！Masked Language Model（简称MLM，掩码语言模型）是现在很多顶尖大语言模型（比如BERT、RoBERTa）的核心训练基础，用通俗的话讲，它的核心逻辑就是让模型'猜词填空'，从而学会理解语言。

一、核心原理：简单说就是"给句子挖空，让模型猜"

训练时，会随机把句子里的部分单词"盖住"（也就是"掩码"），比如把句子"I [MASK] to read books"里的"like"换成特殊符号[MASK]；
模型的任务就是根据上下文（前面的"I"和后面的"to read books"），预测被盖住的单词原本是什么；
通过海量这样的"猜词"训练，模型能慢慢学会单词之间的搭配、句子的语法逻辑，甚至隐含的语义和常识（比如知道"I"后面接"like"比接"eat"更合理）。

二、关键特点：双向理解+无固定任务偏向

双向语境学习：和GPT这类"从左到右读句子"的模型不同，MLM训练时能同时看被掩码单词的"左边"和"右边"上下文（比如猜"[MASK]"时，既看前面的主语，也看后面的宾语），所以对语言的"理解能力"更强，适合做阅读理解、语义匹配、提取关键信息等任务；
通用型基础：它不针对某个具体任务（比如专门做翻译或问答），而是先通过"猜词"学会通用的语言规律，之后再针对具体任务（比如论文里的检索、生成）微调，有点像"先打好语文基础，再学写作文、做阅读题"。

三、和你之前了解的RAG模型的关联

论文里提到MLM（比如BERT就是典型的MLM），主要用在两个地方：

作为RAG的"检索器基础"：RAG里的DPR检索器，其查询编码器和文档编码器都是基于BERT（MLM模型）训练的------正因为MLM擅长理解语义，才能精准匹配"用户问题"和"知识库文档"的核心含义（比如知道"什么是中耳"和"中耳的定义"是同一个意思）；
对比其他模型：论文里提到的REALM、ORQA等混合模型，也是把MLM和检索结合，但只局限于"抽取式问答"，而RAG则把这种结合拓展到了更通用的"生成任务"（比如写句子、编问题）。

四、简单总结

MLM本质是一种"让模型通过猜词学语言"的训练方法，核心优势是能让模型深刻理解上下文语义，是很多语言理解类模型的"地基"。它就像一个"语言学霸"，通过大量"填空练习"吃透了语言的规律，之后不管是做阅读、匹配信息，还是辅助生成内容（比如RAG里的检索环节），都能发挥扎实的基础作用～

上一篇：说人话版 K-means 解析

下一篇：Cocos creator如何使用onCollisionEnter或者onTriggerEnter

热门推荐

01GitHub 镜像站点 02OpenClaw 使用和管理 MCP 完全指南 03OpenClaw + 飞书（Feishu）环境搭建指南 04Claude Code + GLM4.7 避坑指南：解决 Unable to connect to Anthropic services 05OpenClaw优化飞书API 额度已耗尽问题 06小黑课堂计算机二级WPSoffice题库软件下载安装教程（2026年3月最新版）07Window 10部署openclaw报错node.exe : npm error code 128 08Clawdbot部署教程：解决‘gateway token missing’授权问题的完整步骤 09本地部署 OpenClaw + DeepSeek-R1 完全指南 10网站改了域名，如何查找？