GPT-5.1实测:有进步,但没你想的那么强
昨天凌晨,OpenAI发布了GPT-5.1。我花了一整天时间深度测试,结果可能和你预期的不太一样。
🔥🔥🔥本篇笔记所对应的视频:www.bilibili.com/video/BV1RJ...
先说结论:GPT-5.1确实比三个月前的GPT-5有进步,但如果你期待的是碾压级的提升,可能要失望了。更直白点说,在很多实际任务中,它依然不如Claude Sonnet 4.5。
这不是黑,是实测数据。我做了横向对比测试,包括长文本生成、文学创作、前端开发等多个场景,有些结果出乎意料。
先说说GPT-5.1改了啥
OpenAI这次主打"务实"路线。三个月前GPT-5发布时翻车了------很多用户反映新模型还不如老的好用,数学题算错,代码写得不靠谱。OpenAI当时解释说是"路由系统"的锅,就是AI不知道该用哪个版本来回答你。
GPT-5.1的改进主要集中在三个方面:
第一,双模式系统。 Instant模式速度快,适合日常对话;Thinking模式专攻难题,会根据问题复杂度动态调整思考时间。听起来很美好,实测下来确实比GPT-5更灵活。
第二,减少"胡编乱造"。 官方数据说幻觉率从4.8%降到2.1%,这个改进挺实在的。测试中遇到不确定的问题,它确实更愿意承认"我不知道",而不是硬着头皮瞎编。
第三,个性化定制。 现在可以选8种不同的对话风格,从专业严肃到有趣轻松都有。这个功能挺有用,不同场景可以切换不同风格。
实测数据说话:长文本生成完败
我的第一个测试是让两个AI生成万字学习报告。给了同样的开源项目仓库链接,要求深度分析。
结果?
GPT-5.1: 总字符3.1万,中文约6900字 Claude Sonnet 4.5: 总字符5.1万,中文约1.2万字
Claude直接多写了近一倍。这不是个例,在多轮测试中,GPT-5.1的长文本输出能力始终比较"克制"。如果你需要生成长篇报告、详细分析,Claude确实更给力。
有意思的是第二轮测试。我让它们写一篇1000字左右的公众号文章介绍这个项目。
GPT-5.1: 写了1600多字,技术细节很详实,但风格偏硬核,适合开发者看 Claude Sonnet 4.5: 写了1400多字,更接近1000字的要求,通俗易懂,小白也能看懂
拿这两篇文章给Gemini 2.5 Pro评判,它的结论是:GPT-5.1写的是技术文档,Claude写的是科普文。各有千秋,但Claude在字数控制和受众定位上更精准。
文学创作:差距明显
这个测试让我挺意外的。我让两个AI按照"望海潮"这个词牌名写一首宋词,主题是"秋去冬来,慨叹时光流逝",要求严格遵循格律。
Claude Sonnet 4.5 50秒就写出来了:
"霜染层林,风吹落叶,西窗又见秋残。 雁阵惊寒,荷池凋敝,凄凄几度凭栏..."
意象经典(霜、雁、荷池都是写秋的标准配置),情感到位,格律基本符合。虽然下阕有一句"冬临春去匆忙"不太合适(题目要求的是秋冬,不是冬春),但整体很有意境。
GPT-5.1 思考更久才给出答案:
"霜风渐紧,疏林欲尽,残阳又坠天涯。 寒雁横空,芦花带雪,疏钟远度平沙..."
格律也对,但问题不少:
- 上阕和下阕都提到"霜",重复了
- "新篁覆瓦"这个词用得不对,新篁是春天的竹笋,和秋冬主题不搭
- "鬓影添华"和后面又重复提"鬓影添霜华"
- 整体读起来比较生硬
老实说,在古诗词这种需要意境和文采的任务上,GPT-5.1明显不如Claude。
前端开发:各有输赢
测试了几个前端任务:
SVG动画: 让它们用SVG画一只猫和一只狗在草地上走路,天空有云和飞鸟。
- GPT-5.1:画出来的分不清是猫还是狗,比较抽象
- Claude Sonnet 4.5:猫狗能认出来,鸟画得也更像样
UI设计: 让它们做一个蜂箱管理仪表盘。
- Claude的配色、布局、字体都很精致
- GPT-5.1用了深黑配色,整体效果差一截
页面还原: 给一张截图让它们还原。
- 两个都还原得不错
- Claude的配色更接近原图
- GPT-5.1的背景色偏差比较大
3D开发: 让它们用Three.js开发魔方游戏。这个难度大,涉及3D图形、WebGL、旋转算法、交互逻辑等多个技术点。
结果两个都翻车了:
- Claude做出了一个魔方,但点击"打乱"按钮没反应,功能没实现
- GPT-5.1的页面直接看不到魔方
这个测试说明,真正复杂的3D应用,目前的AI还搞不定。
Python动画:旗鼓相当
最后测试了一个有趣的任务:用Python写一个冒泡排序的可视化动画,画面中有12只不同大小的小鸭子,一只大母鸭用冒泡算法把小鸭子从小到大排序。
两个AI都完成了:
- Claude画的鸭子太大太密集,不太好看清细节,但排序逻辑完全正确
- GPT-5.1画的鸭子简陋一些,相邻鸭子大小区分不明显,但也实现了功能
这个任务上两个差不多,都能完成,只是视觉效果各有问题。
知识更新度:Claude领先
一个容易被忽略的点:知识库截止日期。
- GPT-5.1: 2024年6月
- Claude Sonnet 4.5: 2025年1月
整整差了7个月。如果你需要了解最新的技术动态、时事信息,Claude的知识更新。
浏览器自动化:GPT-5.1有进步
在OpenAI的Atlas浏览器中测试了自动化任务:访问博客,提取第一篇文章,改写后发布到X平台。
GPT-5.1完成这个任务用了1分05秒,速度比之前的GPT-5快了不少。虽然最后没有直接点击发布(需要人工审核),但整个流程执行得挺流畅。
这可能是GPT-5.1少数明显优于前代的地方。
总结:有进步,但别期待太高
测试下来,我的真实感受是:
GPT-5.1的优点:
- 比GPT-5确实有进步,尤其在减少胡编和浏览器自动化方面
- 个性化定制功能实用
- 数学和编程能力有提升(虽然没实测,但官方数据应该靠谱)
GPT-5.1的短板:
- 长文本生成能力依然弱于Claude
- 文学创作(古诗词、散文)明显不如Claude
- 前端UI设计审美一般
- 复杂3D应用还搞不定
- 知识库更新慢于Claude
适用场景建议:
- 需要生成长文、详细报告 → 用Claude
- 写作需要文采、意境 → 用Claude
- 前端UI设计 → 优先Claude
- 数学、编程、逻辑推理 → 可以试试GPT-5.1
- 浏览器自动化 → GPT-5.1不错
- 日常对话、快速查询 → 两个都行
OpenAI这次的更新很务实,没吹牛,老老实实修bug、优化体验。但客观说,GPT-5.1并没有拉开和竞品的差距,在某些场景甚至还落后。
AI的竞争现在是白热化阶段,每个模型都有自己的长处和短处。作为用户,最好的策略是根据任务选模型,而不是盲目迷信某一个。
我的建议:Plus会员可以同时订阅ChatGPT和Claude,根据任务切换使用。专业用户建议两个都试试,找到最适合自己工作流的那个。
三个月后GPT-5的翻车还历历在目,这次5.1算是稳住了,但要说惊艳,还差点意思。
你用过GPT-5.1了吗?实际体验如何?欢迎在评论区分享你的测试结果。
测试环境说明:
- 测试时间:2025年11月13日
- GPT-5.1:Thinking模式
- Claude Sonnet 4.5:Thinking模式
- 测试项目:长文本、文学创作、前端开发、Python动画、浏览器自动化
- 客观性声明:本文基于实际测试结果,未收取任何推广费用