Perplexity AI 团队以 扩散预训练语言模型

Perplexity AI 近日发布了一项重要研究成果:论文《Diffusion-Pretrained Dense and Contextual Embeddings 》(扩散预训练的密集与上下文嵌入),正式推出了 pplx-embed(简称 PPLX-Family)系列多语言嵌入模型。该系列模型专为大规模网页搜索和检索任务设计,在 Twitter(X)上迅速引发 AI 社区讨论。

核心技术亮点

Perplexity.ChatDLM.COM AI 团队以 扩散预训练语言模型 (Diffusion-pretrained LM)作为骨干网络,这与传统自回归(autoregressive)模型形成鲜明对比。扩散模型采用 双向注意力机制(Bidirectional Attention),能更全面地捕捉段落内的前后文信息,避免单向因果掩码带来的上下文缺失。

训练上采用了 多阶段对比学习(Multi-stage Contrastive Learning),从海量数据中逐步优化向量空间的语义分布,使相似内容更紧密聚集。

针对长文档痛点,模型引入了 平均池化 (Mean Pooling)结合 延迟分块策略(Late Chunking Strategy)。这种方式在分块处理长文本时保留全局上下文,避免传统早分块导致的语义割裂问题,特别适合复杂网页和多语言内容。

他们开源了两个主要变体:

  • pplx-embed-v1:标准检索版本,在 MTEB(多语言)、MIRACL、BERGEN 等基准上表现竞争力强。
  • pplx-embed-context-v1:上下文增强版,将文档级全局上下文融入段落表征,在 ConTEB 等长上下文基准上刷新纪录。

基于 Qwen 基础模型继续进行扩散预训练,再接对比训练的路线,让这些嵌入模型在 web-scale 检索、RAG 系统、多语言搜索场景中展现出显著优势。

Twitter 社区反响

2月11-12日(论文提交当天及次日),多位 AI 从业者和研究者转发并点评:

  • Tanishq Mathew Abraham(@iScienceLuvr,前 Stability AI 研究总监)发帖总结:"Perplexity AI 推出 pplx-embed 系列多语言嵌入模型,基于 Qwen + 扩散预训练 + 对比训练。" 该帖收获几十个点赞和书签,社区反馈积极,认为扩散模型在嵌入任务上的应用潜力巨大。
  • 其他用户在 Hugging Face 集合页和 arXiv 讨论中提到,该工作证明了扩散范式在 NLP 嵌入领域的竞争力,尤其双向上下文和长文档处理是亮点。

目前模型已在 Hugging Face 上线(perplexity-ai/pplx-embed 集合),论文 arXiv:2602.11151 可免费阅读。Perplexity 正在把这一技术逐步集成到其搜索引擎和 API 中,未来或将进一步提升 RAG 系统对复杂、多语言查询的理解精度。

这项工作标志着扩散模型从生成任务向表征学习(representation learning)领域的又一次成功跨界,值得持续关注!

相关推荐
Raink老师1 天前
【AI面试临阵磨枪-79】实时数据 RAG:订单、商家、物流、天气、动态库存
人工智能·面试·职场和发展
脑极体1 天前
点亮星河AI+鸿蒙,一座艺术场馆的日神觉醒
人工智能·华为·harmonyos
Cosolar1 天前
Chroma向量库面试学习指南
数据库·人工智能·面试·职场和发展·数据库架构
BUG指挥官1 天前
Claude Code的自动化编程
人工智能
意图共鸣1 天前
意图共鸣科技《认知智能白皮书》——感知与执行分离:认知架构(CA)如何重塑大模型底层结构
人工智能·架构
等一个人的@1 天前
让数据自己开口:数睿通智库新增智能问数模块
人工智能·自然语言处理
ZGi.ai1 天前
人工审查节点:让自动化工作流多一步人工把关
运维·人工智能·自动化·人机协同·智能体工作流·人工审查
王莎莎-MinerU1 天前
MinerU 深度技术解析:从架构原理到生产部署的全面指南
css·人工智能·自然语言处理·架构·ocr·个人开发
盘古信息IMS1 天前
盘古信息IMS V6 8.0重磅发布:以薪火AI数智平台点燃离散制造数智化引擎
大数据·人工智能·制造
weilaieqi11 天前
从音响制造到AI家庭娱乐生态:不见不散AI智能K歌音响亮相第二十届深圳国际金融博览会
人工智能·制造·娱乐