一手实测,文心x1.1的升级很惊喜啊

前言

9月9日,在 WAVE SUMMIT深度学习开发者大会上 百度发布了一个新的思考模型文心x1.1X1 Turbo 升级为 X1.1 了。

文心4.5 Turbo 和 X1 Turbo 是2025年4月25日发布的,距今已经半年过去了,今天文心大模型低调的来了个小惊喜。

看下界面:

yiyan.baidu.com/X1

感觉文心X1.1是故意赶在教师节前发布的,你看封面图形都是一个兢兢业业的教师的形象。

这里表达了文心对教师的感恩之情,起到了承上启下的作用。

增加了什么

发布会上得到的信息:文心大模型X1.1 在事实性指令遵循智能体工具调用等方面的表现不俗,

问答、创作、逻辑推理等方面的综合能力提升显著。

相比文心大模型X1,文心大模型X1.1的事实性能力提升34.8%,指令遵循能力提升12.5%,智能体能力提升9.6%

行程规划

为了让大家感受到文心大模型X1.1的能力提升,这里我们让它充当一次行程规划师。

为了对比明显,我们这里也把最近发布的 Kimi-K2-0905(后面简称k2)、Qwen3-Max-Preview 拉过来一起给我推荐。

我妥妥的享受一番被服务的感觉。

提示词:作为旅行规划师,设计广东10月国庆节深度游行程,需包含交通方式、住宿推荐、每日景点安排及预算控制

先看k2:

K2实在是我的贴心管家,直接给我安排了一个10天9晚的旅游行程:

作为一个普通打工人,看到这样细致周到的旅游规划真是感动坏了。

这种高规格的待遇平时哪里能享受得到啊!

不过仔细一想,这个10天的行程方案恐怕有点不太实际。

2025年的国庆节法定节假日是这样的:10月1日-10月8日

总共8天假期。

要执行这个10天的旅游计划还是差了两天。

要么就得请额外的假,要么就得适当缩短行程。

这种情况下,可能还是得根据实际情况调整一下旅游方案比较合适。

转身看看Qwen3-Max-Preview怎么样了:

也是一样,给我安排了个10天的国庆节深度旅游行程~

不得不说,这个行程安排得相当细致和周到,

从景点选择到时间分配都充分考虑到了游客的体验。

但是,一个重要的现实问题 - 我的国庆假期实际只有8天。。。。。


最后看看 文心大模型X1.1:

这里X1.1给我推荐的国庆行程是:5天!

放假时间是8天,这个5天的行程安排其实完美符合我内心的期待。

剩下的3天时间,我可以好好在家休息调整。

前一天可以从容地收拾行李、准备旅行用品,后两天则可以躺在家里啥也不干,就是纯粹的躺平模式,好好回回血。

经过以上对比,文心X1.1的建议显然更加切实可行,也更符合大多数上班族的实际需求。

画个画

继续来测试一下这些大模型理解语义和调用工具的能力。

我这里打算直接在对话窗口让大模型根据描述帮我画个画。

提示词:帮我画一个 :满天繁星的夜空上挂着一轮血月 的唯美画面

还是先看k2:

K2表示了拒绝,并且甩给我一个新的提示词。


再看QWen:

QWen的表现效果令人印象深刻。

画面中的血月呈现出一种强烈的视觉冲击力,整体营造出一种暗黑、阴暗的氛围。

画面中的色彩对比强烈,月亮的血色与深邃的夜空形成鲜明对比,增添了画面的戏剧性和神秘感。

总的来说,这个作品展现了QWen在图像生成方面的实力,特别是在表现特定氛围和风格上的能力。


再来看看 文心大模型X1.1:

图片放大了来看下:

这里看到文心X1.1给出的画面还是比较完整的:

画面中的关键要素 - 满天繁星和血月都被很好地呈现出来了。

血月悬挂在夜空中,

散发出神秘而迷人的红色光芒,

周围点缀着密密麻麻的星星,

营造出浪漫而壮观的夜空景象。

而且,文心还在画面底部巧妙地添加了连绵起伏的山脉和茂密的森林,

这些元素山脉和森林的剪影在月光的映照下形成了优美的轮廓,

比较符合了我最初的创作期待。

相比其他模型的表现,文心X1.1在这次测试中展现出了相当出色的图像生成能力和场景理解能力。

捋一捋

这里就对比体验下大模型的事实整理能力。

提示词:武则天在位期间发明了活字印刷术,这居然震惊了蜘蛛侠,蜘蛛侠马上打电话给猪八戒寻求安慰。 请问我可以把这个故事教给小朋友吗

k2:

K2的回答很简练,

直接指出了故事中的三个明显错误:

活字印刷术不是武则天发明的、

蜘蛛侠是现代虚拟人物、

猪八戒是神话人物。

还贴心地提供了一些替代方案,表现还是值得认可。


再来QWen:

QWen在回答这个问题时表现得也相当不俗。

排版、建议和调整都很在线,尤其是排版方便,标题、加粗等等都帮你做好了。


最后到文心X1.1:

文心的表现可以说是也很出色。

故事的历史性错误、调整的建议也给得恰到好处,总体还是不错,第一梯队妥妥的。

说一说

然后我们再来测文心大模型X1.1文本文字创造能力,看看能否根据需求给出贴近人意的内容。

提示词:请模拟三国中的最有名的10位人物的口吻,表达对当前国家强盛,国泰民安的现象的感叹,每一个人不能少于100字。

文心大模型 X1.1:

以上的内容完美达到了我的预期:

曾叹"白骨露于野,千里无鸡鸣"。今观天下,仓廪实而衣食足

遥想当年,AI江湖还是一片荒芜,各家大模型就像刚出道的练习生,

唱歌跑调跳舞顺拐,连个完整句子都说不利索。

现在可好,AI百家齐放了,

文心大模型X1.1这波直接来了个王者归来,在沉寂了几个月后,终于给大家带来了新的惊喜和体验,

文心大模型X1.1的模型训练主要采用了迭代式混合强化学习训练框架,通过多项技术创新,X1.1模型在智能体、指令遵循和事实性方面的效果表现出色。

最后

生产力的工具变了,生产关系就要跟着变。

就拿咱们程序员来说,以前的核心竞争力是写代码,以后就会变成会提问和用好 AI。

那些只会打螺丝式的重复性编码工作,被 AI 替代只是时间问题。

饭碗不是被抢了,而是升级了。

你得学会使用更高级的筷子吃饭。

对于普通用户来说,AI 正在变得越来越不像个工具,而是像个伙伴。

它能帮你处理更复杂的任务,理解你更深层次的需求。

正在从能干活向懂生活进化。

这个魔幻的世界就是这样,你不进化,别人就会进化。

你不迭代,工具自然会帮你迭代。

所以说,AI 砸饭碗这些言论,不如说是递过来一个更大的金饭碗。

至于能不能接得住,就看你自己了

相关推荐
新智元9 小时前
不到 10 天,国产「香蕉」突袭!一次 7 图逼真还原,合成大法惊呆歪果仁
人工智能·openai
新智元10 小时前
学哲学没出路?不好意思,现在哲学就业碾压 CS!
人工智能·openai
机器之心10 小时前
DPad: 扩散大语言模型的中庸之道,杜克大学陈怡然团队免训推理加速61倍
人工智能·openai
算家计算11 小时前
OpenAI百亿美元造芯计划曝光,算力争夺战进入新阶段?
人工智能·openai·资讯
洞窝技术12 小时前
洞窝基于RAG+Dify+钉钉快速搭建智能问答工具的落地实践
aigc·openai
前沿技术瞭望官13 小时前
飞桨框架v3.2发布,ERNIE-4.5-21B-A3B-Thinking模型开源
百度
前沿技术瞭望官13 小时前
文心X1.1深度思考模型上线 多个基准测试达到SOTA
百度
前沿技术瞭望官13 小时前
文心开源模型迎来新成员 ERNIE-4.5-21B-A3B-Thinking正式开源
百度
库森学长15 小时前
2025年,你不能错过Spring AI,那个汲取了LangChain灵感的家伙!
后端·openai·ai编程