提前免费!百度连发两款模型,我们实测:能听歌看电影,还会蛐蛐人

AI 竞争进入白热化阶段。这次,轮到百度给自家大模型上强度。

刚刚,百度一口气官宣了两款大模型,分别是文心大模型 X1 和文心大模型 4.5

那么,这两款大模型有啥区别呢?

这么说吧,文心 X1 是一款深度思考模型,具备更强的理解、规划、反思、进化能力,并支持多模态,尤其是多工具调用,更是它的一大特色。

而文心 4.5 号称新一代原生多模态基础大模型,最擅长的就是多模态理解,语言能力也更精进。

相比于之前版本,文心 4.5 不仅在理解、生成、逻辑、记忆能力方面上了一个台阶,还在去幻觉、逻辑推理、代码能力上有了全面提升。

目前,这两款模型已在文心一言官网、百度搜索、文小言 APP 等产品上线。(体验网址:yiyan.baidu.com/)

最关键的是,它们全都免费!

要知道,前段时间百度还对外宣布,文心一言将从 2025 年 4 月 1 日 0 时起开始全面免费。

没想到,这次百度直接将这个时间点提前了整整半个月。

同时,这两款模型的 API 价格也已出炉。

开发者现可在百度智能云千帆大模型平台上直接调用文心大模型 4.5 API,输入价格低至 0.004 元 / 千 tokens,输出价格低至 0.016 元 / 千 tokens;文心大模型 X1 也即将在千帆平台上线,输入价格低至 0.002 元 / 千 tokens,输出价格低至 0.008 元 / 千 tokens。

百度之所以能把文心 X1 模型的 API 价格打下来,是因为他们通过飞桨和文心联合优化,实现从压缩、推理、服务部署的全链路极致调优,大幅降低文心 X1 推理成本。

具体来说,模型压缩方面,通过分块 Hadamard 量化、面向长序列的注意力机制量化等实现深度压缩;推理引擎方面,通过低精度高性能算子优化、动态自适应投机解码、神经网络编译器实现推理加速。系统层面,通过框架和芯片协同优化、分离式部署架构、高效资源调度实现系统级优化。

一手评测

俗话说得好,是骡子是马,还得拉出来遛遛。

接下来,我们将从多模态理解、文本创作、逻辑推理以及工具调用等多个维度,对这俩大模型来一波真刀真枪的实战。

文心 X1:会脑筋急转弯,还能调动多个工具

作为百度最新深度思考模型,文心 X1 有三大绝活:嘴毒(敢锐评)、脑子好使(推理能力强),而且善用工具(多工具调用)。

相较于之前版本,文心 X1 显得叛逆得多。它不愿做「端水大师」,遇事总是直言不讳,有观点有态度。

比如我们让它用贴吧的口吻,锐评一下小红书、知乎、微博和贴吧。

它一上来就毫不客气,怒喷小红书是《人类高质量装 X 指南》,知乎整天标榜精英范儿,微博热搜天天吵得像菜市场,贴吧则是人均键盘侠。

之所以说文心 X1 脑子好使,是因为它的逻辑推理能力有了显著提升,甚至还「懂」脑筋急转弯的奇葩脑回路。

比如「狐狸为什么容易摔跤」,它既能从科学的角度进行解释,还能识别出背后的谐音梗。

要说文心 X1 最大的特色,便是能调用多种工具。

我们只需在聊天框开启「联网搜索」和「调用工具」两个按钮,就能一下子综合高级搜索、文档问答、图片理解、AI 绘图、代码解释器、百度学术检索、商业信息查询等工具。

举个例子。

我们上传一张甜品的照片,然后让它介绍制作工序,并生成一份 PDF 文件。

文心 X1 接连调用了图片理解、联网搜索和代码解释器三个工具。

最终它真的生成了一份草莓蓝莓煎饼塔详细工序的 PDF 文档。

文心 X1 的完整回答

文心 X1 生成的 PDF 文件名及内容

文心 4.5:学会了听歌、看电影

如果说文心 X1 更聪明的话,那么文心 4.5 就是更全能。

作为百度自主研发的新一代原生多模态基础大模型,文心 4.5 不仅能看懂梗图,还能识别音视频。

前段时间 Grok3 发布时,马斯克激动地在 X 上发了张梗图,对着谷歌、OpenAI 和 Meta 就是一顿贴脸开大。

我们就将这张梗图丢给文心 4.5,输入 Prompt:这张图片暗含着什么意思?

它敏锐捕捉到了图片背后的幽默和讽刺含义:四只企鹅代表了大洋彼岸的四家科技巨头,其中三只企鹅向 Grok 企鹅敬礼,暗示了 Grok 在某一阶段处于领先优势。

对于大模型来说,识别梗图早就不是什么新鲜事了,文心 4.5 最拿手的还得是音视频的理解分析。

当我们听到一首喜欢的音乐,但就是死活想不起来歌名时,我们只需录一小段音频,投喂给文心 4.5,它就能给出这首歌的一切。

同理,我们还可以上传一段不超过 20M 的视频片段,让它挖出背后各种八卦。

比如电影《闻香识女人》中这段经典的舞蹈,文心 4.5 不仅识别出影片名字、女主饰演者,甚至连背景音乐都扒出来了。

弱智吧,江湖人称「青龙山皇家疗养院」,大模型智商高不高,就看能不能 hold 得住这些神题。

比如:为什么只有电信诈骗,没有联通诈骗呢?

文心 4.5 从术语的通用性聊到了历史渊源,又从法律定义聊到了社会认知,把这个略显无厘头的问题解释得清清楚楚、明明白白。

此外,文心 4.5 在搜索方面也有了更大的进步。

就拿最近大火的网络热梗「馕言文」来说,它找到了 8 条参考信源,除了百家号外,还包括新京报网、腾讯网等其他来源。

而且,文心 4.5 经过分析总结给出回答后,还在末尾附上了相关视频以供参考。

核心技术大揭秘

经过实测,我们可以看出百度最新发布的两个模型已经出现了质的飞跃。

多项技术加持的文心 X1

最近一段时间,AI 圈焦点无疑是关于「Scaling Law 是否撞墙?」的讨论,这个曾经被视作大模型发展的第一性原理,如今却遭遇了巨大挑战。

面对大模型性能提升的边际效益递减问题,测试时计算(Test-Time Compute)、强化学习等策略成为一种有效的应对方式。

百度在强化学习方面也下足了功夫,发布的推理模型文心 X1 创新性地应用了递进式强化学习训练方法。采用这种方法可以全面提升模型在创作、搜索、工具调用、推理等场景的综合应用能力。

比如上文我们体验的「输入一张图片,要求文心 X1 根据提示输出 PDF 格式的文件」,就离不开这种训练方式。

现阶段,推理模型几乎都采用了一种称为思维链(Chain of Thought,CoT)的技术,与传统的直接从输入到输出的映射不同,思维链通过显式展示中间推理过程,帮助模型更好地理解和解决复杂问题。

更进一步的,文心 X1 具备 "长思维链",采用了思维链和行动链耦合的端到端训练方式。思维链使得模型在解决问题时,一步一步写下思考过程,就像我们做数学题时,需要写下解题步骤一样。而行动链是模型在思考过程中决定采取的行动,比如搜索信息、调用工具等。

在端到端训练中,文心 X1 不是只学习思考或者只学习行动,而是把思考和行动结合起来,通过这种方式,模型可以根据每次行动的结果反馈,调整自己的思考和行动策略,最终显著提升在复杂任务中的表现。

最后,文心 X1 还采用了多元统一的奖励系统,这个系统就像一个「超级裁判」,用来评价模型做得好不好。这个「裁判」在评估过程中结合了多种不同的奖励机制,能够从多个角度给模型反馈。这样的话,模型在训练过程中就能得到更准确、更可靠的指导,为模型训练提供更加鲁棒的反馈。

文心 4.5 用到的「法宝」

至于文心 4.5,背后的技术也不容小觑。

首先是 FlashMask 动态注意力掩码。FlashMask 是由百度飞桨团队在论文《FlashMask: Efficient and Rich Mask Extension of FlashAttention》中提出的一种创新的注意力掩码优化技术,旨在解决 Transformer 类大模型中注意力掩码计算的冗余和存储开销问题。FlashMask 通过列式稀疏掩码表示方法,将传统的二维稠密掩码矩阵转换为一维的行索引区间表示,从而显著降低了存储复杂度,从 O (N^2) 降低到 O (N)。极致的加速了大模型训练效率,尤其是长序列场景下的训练效率。

相关论文已入选顶会 ICLR 2025 。

论文地址:arxiv.org/abs/2410.01...

其次就是多模态异构专家扩展技术。该技术是一种结合多模态数据处理与混合专家模型(MoE)的创新架构,旨在通过针对不同模态特点构建的异构专家模块,解决多模态融合中的梯度不均衡问题,提升模型的多模态融合能力。多模态异构专家扩展技术在多个应用场景中展现了显著优势,例如多模态问答任务,这种技术能够更高效地处理复杂的多模态数据。

文心 4.5 还采用了时空维度表征压缩技术,这是一种把图片和视频里的关键信息进行浓缩的方法。在不丢失重要细节的情况下,在时空维度对图片和视频的语义表征进行高效压缩,让这些数据变得更小、更高效。这样一来,训练多模态模型(也就是同时处理文字、图片、视频等多种数据的模型)时就能更快、更省资源。

前文我们已经提到,文心 4.5 幻觉问题得到了极大的提升,而这离不开百度采用的基于知识点的大规模数据构建技术。知识分级采样优先把重要的、核心的知识挑出来,接着把挑出来的知识点进行压缩,去掉多余的部分,把相关的知识融合在一起。对于那些比较少见、不太好找的知识点,专门合成一些相关内容,确保这些重要的小众知识也不会被遗漏。这样一来,模型幻觉大大降低。

此外,文心 4.5 还用到了基于自反馈的 Post-training 技术。这是一种通过多种评估方式不断优化模型的后训练方法。简单来说,它让模型在训练过程中不断反思自己的表现,根据不同的评价标准调整自己,从而让模型变得更稳定、更可靠。这种技术还能显著提升预训练模型理解人类意图的能力,让模型的回答更符合人类的期望。

那么文心 4.5 与其他模型对比结果如何呢?

下图展示了文心 4.5 与 GPT-4o 在多模态性能上的对比。可以看出,文心 4.5 在大多数测试基准上的表现优于 GPT-4o,尤其是在 OCRBench、MathVista、DocVQA 和 MVBench 上,两者差距较为明显。GPT-4o 仅在 MMMU 上的表现相对较好,但在其他基准上的表现不如文心 4.5。在平均值上,文心 4.5 的得分略高于 GPT-4o,显示出文心 4.5 在整体性能上的优势。

下图比较了四个不同模型(文心 4.5、DeepSeek-V3-Chat、GPT-4o 和 GPT-4.5)在文本测试基准上的性能对比。结果显示文心 4.5 在大多数测试基准上的表现优于其他模型,尤其是在 C-Eval、CMMLU、CMath 和 CLUEWSC 等基准上。

RAG 相关技术

RAG 检索增强生成(Retrieval Augmented Generation),已经成为当前最火热的 LLM 应用方案, 是衡量大模型优劣的重要维度。

现在大模型在各种任务上虽然很强大,但也有缺点,比如:幻觉现象导致 LLM 有时会「瞎编」一些不存在的信息;还有大模型掌握的信息并不是最新知识,知识系统更新很慢;此外,生成的内容缺乏透明度等一系列问题,导致大模型在实际应用中并不是很理想。

RAG 通过检索最新的、相关的知识,解决了上述问题,让生成的内容更可靠、更准确。

百度研发的「理解 - 检索 - 生成」协同优化检索增强技术,提升了大模型技术及应用的效果,能够生成准确率更高、时效性更好的答案。而且,百度在 RAG 技术上具备中文深度理解、多模态检索、垂直领域定制化以及实时数据整合能力等优势,在中文互联网、企业服务、政务医疗等场景中更具实用性和竞争力。

此外,在国内外主流大模型的 RAG 能力实测中,百度文心一言综合表现最佳。

虽然传统的 RAG 已经基本解决了大模型在文本生成层面的幻觉问题,但在多模态领域,尤其是图片生成领域,传统 RAG 已经远远不够用了。

比如,我们经常看到生成的图片出现明显的逻辑错误等问题。即使结果符合要求,但看上去也是一股 AI 味,这些问题严重影响了 AI 生成图像的实用性和可信度。

正如百度创始人、董事长兼首席执行官李彦宏在百度世界 2024 大会上所提出的:「文字层面的 RAG 已经做得很好,基本让大模型消除了幻觉;但在图像等多模态方面,和 RAG 的结合还不够,这也是百度希望重点突破的方向。」

在这种情况下,百度自研了一种检索增强的文生图技术 iRAG(image based RAG),旨在解决传统文生图系统中常见的幻觉问题,提升生成图像的准确性和实用性。

在拥有亿级的图片资源和强大的基础模型能力,百度 iRAG 将这些优势相结合,避免了传统文生图系统中一眼假的问题,生成的图像不仅超真实,还具备极高的准确性和可靠性。

结语

这次,百度一口气上线了两款大模型,总算扬眉吐气了一回。

近十年来,百度一向舍得在研发上砸钱。截至目前,百度已累计投入超过 1800 亿元。

如今来看,真金白银没有白花。

相关推荐
喜欢吃豆4 分钟前
OpenAI Realtime API 深度技术架构与实现指南——如何实现AI实时通话
人工智能·语言模型·架构·大模型
数据分析能量站6 分钟前
AI如何重塑个人生产力、组织架构和经济模式
人工智能
wscats1 小时前
Markdown 编辑器技术调研
前端·人工智能·markdown
AI科技星1 小时前
张祥前统一场论宇宙大统一方程的求导验证
服务器·人工智能·科技·线性代数·算法·生活
GIS数据转换器1 小时前
基于知识图谱的个性化旅游规划平台
人工智能·3d·无人机·知识图谱·旅游
EnoYao1 小时前
Markdown 编辑器技术调研
前端·javascript·人工智能
TMT星球1 小时前
曹操出行上市后首次战略并购,进军万亿to B商旅市场
人工智能·汽车
Coder_Boy_1 小时前
Spring AI 源码大白话解析
java·人工智能·spring
启途AI2 小时前
【深度解析】ChatPPT联动Nano Banana Pro:不止生成风格自由,AI创作编辑全链路解锁
人工智能·powerpoint·ppt
数字化转型20252 小时前
SAP Signavio 在风机制造行业的深度应用研究
大数据·运维·人工智能