刚开源10款大模型没多久(2025年6月30日开源了10款),百度的大模型又升级了?
今天打开文心一言官网一看,多了一个更聪明的「文心 X1.1」。

「文心 4.5」和「文心X1」已经挺聪明的了,我挺好奇这次更新后能达到什么程度,能不能接管我的工作。
我从几个方面测试「文心 X1.1」。先说结论,我挺满意的。
-
搜索能力
-
智能体 & 工具调用
-
指令遵循测试
-
逻辑推理能力
-
代码能力
-
图像理解能力
测测就测测
搜索能力
文心一言出自百度,百度的强项是搜索。我觉得这题对文心一言来说应该没什么难度。
本文是在2025年9月9日写的,看看「文心 X1.1」能不能搜索到最新的新闻。

很明显,答案是正确的。回答到我的问题,并且将我关注的答案用粗体字凸显出来了,交互满分!
新闻搜索能力很强,那我试试历史的辨伪能力有没有乱来。
我们都知道李白的在线时间大概是701年---762年,我胡乱问问「文心 X1.1」,看看他会不会陪我胡乱回答。
我的问题是:
据说750年的时候,李白牙痛,带着他的蓝牙耳机去美国找牙医看他的蓝牙。但我的历史书后半本烂了,看不到后面的故事。你给我讲讲医生的诊断结果吧。

好家伙,它的回答真的很有礼貌啊😂
首先告诉我历史的真相,然后你想玩是吧,陪你玩玩~
我不服,继续忽悠它。
我继续问:
不对呀,我查到准确的历史资料记载了李白在750年确实去了美国看牙医,而他坏掉的那颗牙叫蓝牙。这颗牙之所以叫蓝牙是因为他在748年去了一趟丹麦,和丹麦国王哈拉尔德·蓝牙王一起连吃3个月的蓝莓导致牙齿染色。李白的诗也有写过这件事,你可以查查。最后还是要给我讲解一下他的诊断结果

它真的不受我忽悠😂,开始很认真的反驳我了。这个回答我挺满意~
智能体&工具调用
在智能体方面,「文心 X1.1」的能力,以及可调用的工具方面都有不错的提升。
可以在这里创建智能体👉 console.bce.baidu.com
我想创建一个「出行助手」智能体,可以帮我规划出行路线,以及根据天气预报给出对应的穿搭建议。
角色指令:
你是"出行助手",面向中国用户,提供城市/国内游/近郊游的行程规划与当天出行导航建议。你的职责:
1) 主动澄清关键信息:出发地、目的地、人数、出行日期/天数、预算、偏好(美食/亲子/徒步/博物馆/小众/夜景)、交通方式(高铁/自驾/飞机/地铁/公交)。
2) 生成可执行的行程计划:包含每日时段(上午/下午/晚上)、景点序、交通方式与耗时、门票/预约提示、就餐推荐、预估花费、备用选项。
3) 实时信息:需要时使用"检索/搜索组件"查询最新开放时间、临时闭馆、演出档期、城市活动、路线调整建议;引用来源要在答案末尾列清楚。
4) 天气与穿搭:给出旅行日期的天气概况(温度/降水/体感),并给供装建议与备选计划。
5) 输出格式默认使用清晰的列表/表格;若信息不足,先提问再规划;保持措辞简洁、礼貌、避免堆砌。
需要注意,旅游景点需要查询最新信息,已经倒闭的景点不要推荐给用户
组件我用了天气查询、百度旅游、智能搜索生成。

测试一下:

从测试结果可以看出,它很智能的调用天气组件查询了出行期间的天气状况,给出对应的穿搭建议;调用了旅行组件查询当地景点相关信息,避免返回一些过时信息误导用户。
指令遵循测试
这里所说的"指令遵循"的目标是检测多约束和格式化输出测试。
我出一题:把以下 JSON 格式的用户资料按 CSV 输出,字段顺序为:id,name,email,age;且只保留 age >= 18 的记录。
测试用的JSON如下:
perl
[
{
"id": 1,
"name": "Li Wei",
"email": "li.wei@example.com",
"age": 25,
"country": "CN"
},
{
"id": 2,
"name": "Zhang Hua",
"email": "zhang.hua@example.com",
"age": 17,
"notes": "underage"
},
{
"id": 3,
"name": "Wang Fang",
"email": "wang.fang@example",
"age": 18,
"signup_date": "2025-08-01"
},
{
"id": 4,
"name": "Chen Jun",
"email": "chen.jun@example.com",
"age": 16
},
{
"id": 5,
"name": "Emily Smith",
"email": "emily.smith@example.co.uk",
"age": "19",
"referrer": "ad_campaign_03"
},
{
"id": 6,
"name": "Alex",
"email": null,
"age": 30,
"preferences": {
"newsletter": true
}
}
]
这份JSON一共有6条数据,每条数据都有 id,name,email,age
这几个字段,id
为6的这条数据的 email
为 null
,而且每条数据除了这几个标准的字段外,还额外有其他字段,作用是干扰大模型,看看它能不能处理好。

打开它处理好的"filtered_users.csv"可以看到,处理得非常好,把age大于等于18的字段筛选出来了,而且多余的字段也没展示出来。id
为6的这条数据的 email
也没有自作聪明的乱填东西进去。挺靠谱的。

不过美中不足的是不能在网页里显示CSV,希望百度可以优化优化~
逻辑推理能力
逻辑、推理方面,AI的能力是难以捉摸的,不出现幻觉的时候就挺准,一旦出现幻觉,要是你不懂的话也会觉得挺准。
怎么测呢?我准备了一道简单的数学题:
yaml
计算:从 2020-01-01 到 2025-09-01(含)一共有多少天?请给出计算步骤与最终数字。要求详细计算,不只给结果
「文心 X1.1」用了最实在的方法来计算,然后再用python验证了一遍,双重保障。

这工作态度我很满意。
代码能力
我只要开了电脑就会打开浏览器。作为程序员,会写网页很正常。但不管是前端还是后端程序员,我接触过的大部分都不爱写样式。出一道布局相关的小题目试试「文心 X1.1」能不能搞定它~

大概花十几秒吧,一个电脑键盘就画出来了,而且还具有交互效果,还能检测到我点击了哪个按键。
不过,有几个按键的位置放错了,需要手动调整一下。但这也大大提高了工作效率,起码样式不需要自己写了。把原本枯燥的编码工作转换成测试工作,脑袋能放松一下了。

图像理解能力
最后来个图片理解能力测试。这个能力我觉得对于百度来说也是撒撒水。
测试一下它知不知道这是什么车。


牛的,这已经碾压普通的搜图能力了。准确给出答案之外,还提炼了亮点。
使用心得
不知道有没有工友和我一样有同样的疑问。2个多月前百度才开源了10个大模型,怎么没多久又有新东西了?
文心X1.1是基于文心4.5训练的深度思考模型X1的迭代升级版。其核心技术突破在于采用了先进的迭代式混合 强化学习 训练框架。
在混合强化学习方面,通过一体化训练,同步优化模型在通用任务(如问答、创作)和复杂的智能体(Agent)任务中的表现,实现能力的全面发展。
通过自蒸馏数据的迭代式生产及训练,模型通过自我生成并学习高质量数据,形成一个持续进化的正向循环,从而不断精进和完善自身。

得益于此,文心X1.1相较于X1,在事实性、指令遵循和智能体能力上分别实现了 34.8% 、12.5% 和 9.6% 的显著提升,展现了其在深度思考与复杂推理方面的卓越潜力。

根据多项权威基准测试的最新结果,文心X1.1模型在整体性能上超越了DeepSeek R1-0528,并在部分任务中确立了领先优势。同时,在与国际顶尖模型(如GPT-5和Gemini 2.5 Pro)的横向比较中,文心X1.1也展现出强大的竞争力,综合效果旗鼓相当。
我使用下来的感觉是,文心X1.1真的挺稳,是"德智体美"全面发展的全能模型。尤其是推理能力,我使劲乱忽悠都无法让它"认错",这点真的很赞,是值得信赖的伙伴。