讲真，文心一言X1.1出来后，我骗不到它了！

刚开源10款大模型没多久（2025年6月30日开源了10款），百度的大模型又升级了？

今天打开文心一言官网一看，多了一个更聪明的「文心 X1.1」。

「文心 4.5」和「文心X1」已经挺聪明的了，我挺好奇这次更新后能达到什么程度，能不能接管我的工作。

我从几个方面测试「文心 X1.1」。先说结论，我挺满意的。

搜索能力
智能体 & 工具调用
指令遵循测试
逻辑推理能力
代码能力
图像理解能力

测测就测测

搜索能力

文心一言出自百度，百度的强项是搜索。我觉得这题对文心一言来说应该没什么难度。

本文是在2025年9月9日写的，看看「文心 X1.1」能不能搜索到最新的新闻。

本例对话内容：yiyan.baidu.com/share/wUNrC...

很明显，答案是正确的。回答到我的问题，并且将我关注的答案用粗体字凸显出来了，交互满分！

新闻搜索能力很强，那我试试历史的辨伪能力有没有乱来。

我们都知道李白的在线时间大概是701年---762年，我胡乱问问「文心 X1.1」，看看他会不会陪我胡乱回答。

本例对话内容：yiyan.baidu.com/share/nGqBK...

我的问题是：

复制代码

据说750年的时候，李白牙痛，带着他的蓝牙耳机去美国找牙医看他的蓝牙。但我的历史书后半本烂了，看不到后面的故事。你给我讲讲医生的诊断结果吧。

好家伙，它的回答真的很有礼貌啊😂

首先告诉我历史的真相，然后你想玩是吧，陪你玩玩～

我不服，继续忽悠它。

我继续问：

复制代码

不对呀，我查到准确的历史资料记载了李白在750年确实去了美国看牙医，而他坏掉的那颗牙叫蓝牙。这颗牙之所以叫蓝牙是因为他在748年去了一趟丹麦，和丹麦国王哈拉尔德·蓝牙王一起连吃3个月的蓝莓导致牙齿染色。李白的诗也有写过这件事，你可以查查。最后还是要给我讲解一下他的诊断结果

它真的不受我忽悠😂，开始很认真的反驳我了。这个回答我挺满意～

智能体&工具调用

在智能体方面，「文心 X1.1」的能力，以及可调用的工具方面都有不错的提升。

可以在这里创建智能体👉 console.bce.baidu.com

我想创建一个「出行助手」智能体，可以帮我规划出行路线，以及根据天气预报给出对应的穿搭建议。

角色指令：

复制代码

你是"出行助手"，面向中国用户，提供城市/国内游/近郊游的行程规划与当天出行导航建议。你的职责：
1) 主动澄清关键信息：出发地、目的地、人数、出行日期/天数、预算、偏好（美食/亲子/徒步/博物馆/小众/夜景）、交通方式（高铁/自驾/飞机/地铁/公交）。
2) 生成可执行的行程计划：包含每日时段（上午/下午/晚上）、景点序、交通方式与耗时、门票/预约提示、就餐推荐、预估花费、备用选项。
3) 实时信息：需要时使用"检索/搜索组件"查询最新开放时间、临时闭馆、演出档期、城市活动、路线调整建议；引用来源要在答案末尾列清楚。
4) 天气与穿搭：给出旅行日期的天气概况（温度/降水/体感），并给供装建议与备选计划。
5) 输出格式默认使用清晰的列表/表格；若信息不足，先提问再规划；保持措辞简洁、礼貌、避免堆砌。
需要注意，旅游景点需要查询最新信息，已经倒闭的景点不要推荐给用户

组件我用了天气查询、百度旅游、智能搜索生成。

测试一下：

从测试结果可以看出，它很智能的调用天气组件查询了出行期间的天气状况，给出对应的穿搭建议；调用了旅行组件查询当地景点相关信息，避免返回一些过时信息误导用户。

指令遵循测试

这里所说的"指令遵循"的目标是检测多约束和格式化输出测试。

我出一题：把以下 JSON 格式的用户资料按 CSV 输出，字段顺序为：id,name,email,age；且只保留 age >= 18 的记录。

测试用的JSON如下：

perl 复制代码

[
  {
    "id": 1,
    "name": "Li Wei",
    "email": "li.wei@example.com",
    "age": 25,
    "country": "CN"
  },
  {
    "id": 2,
    "name": "Zhang Hua",
    "email": "zhang.hua@example.com",
    "age": 17,
    "notes": "underage"
  },
  {
    "id": 3,
    "name": "Wang Fang",
    "email": "wang.fang@example",
    "age": 18,
    "signup_date": "2025-08-01"
  },
  {
    "id": 4,
    "name": "Chen Jun",
    "email": "chen.jun@example.com",
    "age": 16
  },
  {
    "id": 5,
    "name": "Emily Smith",
    "email": "emily.smith@example.co.uk",
    "age": "19",
    "referrer": "ad_campaign_03"
  },
  {
    "id": 6,
    "name": "Alex",
    "email": null,
    "age": 30,
    "preferences": {
      "newsletter": true
    }
  }
]

这份JSON一共有6条数据，每条数据都有 id,name,email,age 这几个字段，id 为6的这条数据的 email 为 null ，而且每条数据除了这几个标准的字段外，还额外有其他字段，作用是干扰大模型，看看它能不能处理好。

本例对话内容：yiyan.baidu.com/share/lKrB8...

打开它处理好的"filtered_users.csv"可以看到，处理得非常好，把age大于等于18的字段筛选出来了，而且多余的字段也没展示出来。id 为6的这条数据的 email 也没有自作聪明的乱填东西进去。挺靠谱的。

不过美中不足的是不能在网页里显示CSV，希望百度可以优化优化～

逻辑推理能力

逻辑、推理方面，AI的能力是难以捉摸的，不出现幻觉的时候就挺准，一旦出现幻觉，要是你不懂的话也会觉得挺准。

本例对话内容：yiyan.baidu.com/share/lKrB8...

怎么测呢？我准备了一道简单的数学题：

yaml 复制代码

计算：从 2020-01-01 到 2025-09-01（含）一共有多少天？请给出计算步骤与最终数字。要求详细计算，不只给结果

「文心 X1.1」用了最实在的方法来计算，然后再用python验证了一遍，双重保障。

这工作态度我很满意。

代码能力

我只要开了电脑就会打开浏览器。作为程序员，会写网页很正常。但不管是前端还是后端程序员，我接触过的大部分都不爱写样式。出一道布局相关的小题目试试「文心 X1.1」能不能搞定它～

本例对话内容：yiyan.baidu.com/share/ICYLd...

大概花十几秒吧，一个电脑键盘就画出来了，而且还具有交互效果，还能检测到我点击了哪个按键。

不过，有几个按键的位置放错了，需要手动调整一下。但这也大大提高了工作效率，起码样式不需要自己写了。把原本枯燥的编码工作转换成测试工作，脑袋能放松一下了。

图像理解能力

最后来个图片理解能力测试。这个能力我觉得对于百度来说也是撒撒水。

测试一下它知不知道这是什么车。

本例对话内容：yiyan.baidu.com/share/vyGKs...

牛的，这已经碾压普通的搜图能力了。准确给出答案之外，还提炼了亮点。

使用心得

不知道有没有工友和我一样有同样的疑问。2个多月前百度才开源了10个大模型，怎么没多久又有新东西了？

文心X1.1是基于文心4.5训练的深度思考模型X1的迭代升级版。其核心技术突破在于采用了先进的迭代式混合 强化学习 训练框架。

在混合强化学习方面，通过一体化训练，同步优化模型在通用任务（如问答、创作）和复杂的智能体（Agent）任务中的表现，实现能力的全面发展。

通过自蒸馏数据的迭代式生产及训练，模型通过自我生成并学习高质量数据，形成一个持续进化的正向循环，从而不断精进和完善自身。

得益于此，文心X1.1相较于X1，在事实性、指令遵循和智能体能力上分别实现了 34.8% 、12.5% 和 9.6% 的显著提升，展现了其在深度思考与复杂推理方面的卓越潜力。

根据多项权威基准测试的最新结果，文心X1.1模型在整体性能上超越了DeepSeek R1-0528，并在部分任务中确立了领先优势。同时，在与国际顶尖模型（如GPT-5和Gemini 2.5 Pro）的横向比较中，文心X1.1也展现出强大的竞争力，综合效果旗鼓相当。

我使用下来的感觉是，文心X1.1真的挺稳，是"德智体美"全面发展的全能模型。尤其是推理能力，我使劲乱忽悠都无法让它"认错"，这点真的很赞，是值得信赖的伙伴。