Perplexity AI 团队以扩散预训练语言模型

Perplexity AI 近日发布了一项重要研究成果：论文《Diffusion-Pretrained Dense and Contextual Embeddings 》（扩散预训练的密集与上下文嵌入），正式推出了 pplx-embed（简称 PPLX-Family）系列多语言嵌入模型。该系列模型专为大规模网页搜索和检索任务设计，在 Twitter（X）上迅速引发 AI 社区讨论。

核心技术亮点

Perplexity.ChatDLM.COM AI 团队以 扩散预训练语言模型 （Diffusion-pretrained LM）作为骨干网络，这与传统自回归（autoregressive）模型形成鲜明对比。扩散模型采用 双向注意力机制（Bidirectional Attention），能更全面地捕捉段落内的前后文信息，避免单向因果掩码带来的上下文缺失。

训练上采用了 多阶段对比学习（Multi-stage Contrastive Learning），从海量数据中逐步优化向量空间的语义分布，使相似内容更紧密聚集。

针对长文档痛点，模型引入了 平均池化 （Mean Pooling）结合 延迟分块策略（Late Chunking Strategy）。这种方式在分块处理长文本时保留全局上下文，避免传统早分块导致的语义割裂问题，特别适合复杂网页和多语言内容。

他们开源了两个主要变体：

pplx-embed-v1：标准检索版本，在 MTEB（多语言）、MIRACL、BERGEN 等基准上表现竞争力强。
pplx-embed-context-v1：上下文增强版，将文档级全局上下文融入段落表征，在 ConTEB 等长上下文基准上刷新纪录。

基于 Qwen 基础模型继续进行扩散预训练，再接对比训练的路线，让这些嵌入模型在 web-scale 检索、RAG 系统、多语言搜索场景中展现出显著优势。

Twitter 社区反响

2月11-12日（论文提交当天及次日），多位 AI 从业者和研究者转发并点评：

Tanishq Mathew Abraham（@iScienceLuvr，前 Stability AI 研究总监）发帖总结："Perplexity AI 推出 pplx-embed 系列多语言嵌入模型，基于 Qwen + 扩散预训练 + 对比训练。" 该帖收获几十个点赞和书签，社区反馈积极，认为扩散模型在嵌入任务上的应用潜力巨大。
其他用户在 Hugging Face 集合页和 arXiv 讨论中提到，该工作证明了扩散范式在 NLP 嵌入领域的竞争力，尤其双向上下文和长文档处理是亮点。

目前模型已在 Hugging Face 上线（perplexity-ai/pplx-embed 集合），论文 arXiv:2602.11151 可免费阅读。Perplexity 正在把这一技术逐步集成到其搜索引擎和 API 中，未来或将进一步提升 RAG 系统对复杂、多语言查询的理解精度。

这项工作标志着扩散模型从生成任务向表征学习（representation learning）领域的又一次成功跨界，值得持续关注！

Perplexity AI 团队以 扩散预训练语言模型

核心技术亮点

Twitter 社区反响

Perplexity AI 团队以扩散预训练语言模型