从 token 到向量：微信 CALM 模型颠覆大语言模型范式

大家好，我是AI算法工程师七月，曾在华为、阿里任职，技术栈广泛，爱好广泛，喜欢摄影、羽毛球。目前个人在烟台有一家企业星瀚科技。

关注公众号：量子基态，获取最新观察、思考和文章推送。
关注知乎：量子基态，获取最新观察、思考和文章推送。
关注CSDN：量子基态，获取最新观察、思考和文章推送。
关注稀土掘金：量子基态，获取最新观察、思考和文章推送。
网站1 ：七月
网站2：zerodesk

我会在这里分享关于编程技术、独立开发、行业资讯，思考感悟等内容。爱好交友，想加群滴滴我，wx：swk15688532358，交流分享

如果本文能给你提供启发或帮助，欢迎动动小手指，一键三连 (点赞、评论、转发)，给我一些支持和鼓励，谢谢。

作者：七月链接：www.xinghehuimeng.com.cn 来源：七月著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

传送门

代码：github.com/shaochenze/...

项目：shaochenze.github.io/blog/2025/C...

论文：[2510.27688] Continuous Autoregressive Language Models

微信CALM模型发布

自从GPT的发布到现在，一直是以预测下一个token的作为大语言模型的范式。这一能力离不开token的自回归生成机制，让模型可以通过逐词预测构建文本序列。

添加图片注释，不超过 140 字（可选）

然而，随着模型参数量突破万亿级，token预测方式暴露出了诸多缺点：一次仅能生成一个token的模式严重限制其效率；另外token的语义上限让模型难以突破上上下文的思考。

因此，微信AI联合清华发布了CALM，从预测token转变为预测下一个向量。通过将持续多个token压缩为语义向量，使得生成的步骤变为原来的1/k，再性能相当的前提下，训练的计算量降低了44%，推理减少34%。

模型架构

CALM 的整体架构由四大模块组成，形成端到端的生成链路：预处理模块对输入文本进行 tokenization，按固定长度 K 划分 token 块；语义压缩模块通过高保真自编码器将每个 token 块转化为连续潜向量；连续生成模块基于 Transformer 骨干网络与 Energy Transformer 生成头，自回归预测下一个潜向量；语义重构模块通过解码器将生成的潜向量转化为 token 序列输出。其中，Transformer 骨干网络采用标准的 Decoder-only 结构，确保模型具备强大的上下文理解能力，生成头则替换为 Energy Transformer 适配连续向量生成需求。

提升语义带宽

CALM 提出了 "语义带宽" 的核心概念 ------ 即每个生成单元所能承载的语义信息量。通过将 K 个 token 打包为一个连续向量，模型的语义带宽实现了 K 倍提升，生成步骤则相应减少至 1/K。例如当 K=4 时，原本需要 4 步生成的 4 个 token，现在仅需 1 步即可完成，很明显的是效率获得了极大的提升。

传统的模型通过学习上下文与下一个 token 的概率分布实现序列生成。这种模式的第一个瓶颈在于语义带宽的物理极限：token 的语义承载能力受限于词表规模。

在典型的 32K 词表中，每个 token 的语义带宽仅约 15 位，若要翻倍带宽，词表规模需呈指数级增长，这会导致模型计算量与存储成本急剧爆炸。从字符级到子词级的进化，已耗尽了离散 token 的优化空间，进一步提升语义密度变得不可行。

和传统的离散的token相比，这种打包token为向量进行预测的方式，极大的提升了语义承载能力上限，并且由于其架构特点，具备潜空间结构，支持梯度优化等，为无思染的训练等方式提供了基础。

添加图片注释，不超过 140 字（可选）

根据研究，这种多token合成为一个向量并不是简单的直接合并，而是通过自编码器建立一种离散token和向量之间的双向映射。

无似然建模

仅仅是通过简单的token的合成并不能满足大模型的大规模语义的这个要求。因此研究中指出，通过基于transformers的编码器和交叉熵损失函数的优化，来确保重构精度。经过实验表明该方案能以超过99%的准确率重构token序列，基本相当于无损压缩。

这种方案的缺点也显而易见，那就是前空间的脆弱，即使是轻微的噪声也会导致解码器出现输出不同文本的情况。

对此，官方采用了VAE+KL的方式提升模型的鲁棒性，进一步提升稳定性，确保重构率仍能保持再99%的无损压缩的精度。

将语言建模从离散token转换为向量后，由于连续空间中不存在有限此表，这就无法通过softmax计算显式概率分布，所以传统的那种最大似然的训练方式已经不再适用于CALM的训练。CALM团队提出了一种新的方案：通过个生成头以隐藏状态为输入，直接输出前向量，不需要迭代采样就可以实现直接计算完成。

上文中的生成头是通过能量分数实现的，一改常态的，模型不在使用某个token出现的概率，反而通过能量分数判断生成向量和真实语义的契合度。通过距离损失和对比学习损失的双约束机制实现能量机制，避免了模式崩溃的问题。

训练

该研究的训练可大致分为三个阶段：

第一阶段训练高保真自编码器，使用大规模文本语料（如 The Pile）通过交叉熵损失优化双向映射精度；
第二阶段冻结自编码器参数，用潜向量序列训练 Transformer 骨干与 Energy Transformer 生成头，通过能量损失函数优化生成性能；
第三阶段解冻自编码器部分参数，与生成模块联合微调，进一步提升端到端生成质量。

添加图片注释，不超过 140 字（可选）

添加图片注释，不超过 140 字（可选）

根据论文，语义带宽 K 是 CALM 的核心参数，直接影响性能与效率：K=1 等同于传统 token 级生成，无效率优势；K=2 时训练算力减少 50%，性能下降不明显；K=4 时实现效率与性能的最佳平衡，与同量级传统模型性能相当且训练算力减少 44%、推理算力减少 34%；K=8 时算力进一步降低，但性能出现明显下滑，推测是现有模型尺寸不足以支撑更大语义带宽所致，而随着模型参数量增加，CALM 有望支持更大 K 值以提升性能 - 效率比。

效果

根据论文中后续的研究报告，CALM的研究在标准语言建模任务上的实验验证充分展现了其优势。

添加图片注释，不超过 140 字（可选）

再WikiText-103数据集的测试中，CALM-M（371M 参数，K=4）的参数量略高于 Transformer-S，但训练与推理算力显著降低，性能仅轻微下降。随着参数量增加，CALM-L（735M）和 CALM-XL（1.82B）的性能反超传统 Transformer。

添加图片注释，不超过 140 字（可选）

在 K 值影响实验中，训练与推理 FLOPs 随 K 值增加呈线性下降，K=8 时算力仅为 K=1 时的 1/8，而 K=1 到 K=4 时性能下降幅度小于 5%，K=8 时下降幅度达 12%，验证了 K=4 的最优选择。鲁棒性测试中，当噪声方差为 0.3 时，CALM 的重构准确率仍保持 99.9%，生成文本的语法正确性与语义连贯性无明显下降，而传统模型在同等干扰下性能下降幅度超过 20%，印证了其潜空间的稳定性与抗干扰能力。