掩码语言模型(MLM)技术解析:理论基础、演进脉络与应用创新掩码语言模型(Masked Language Modeling, MLM)是一种自监督预训练目标,其核心思想是通过随机掩盖输入序列中的部分词汇,让模型基于上下文预测被掩盖的原始词汇,从而学习语言的深层双向表示。这一机制由Google AI团队在2018年提出的BERT(Bidirectional Encoder Representations from Transformers)模型中首次系统化实现并广泛应用,彻底改变了自然语言处理领域的预训练范式。