🚀开源编程新王诞生,对标Claude Sonnet 4.5?实测GLM-4.7:Coding和Agentic能力直逼Gemini 3和Claude 4.5

昨天凌晨,智谱AI悄悄放了个大招------发布了最新的开源大模型GLM-4.7。

🔥🔥🔥本篇笔记所对应的视频:www.bilibili.com/video/BV1UT...

说"悄悄"是因为这年头新模型实在太多,大家早就审美疲劳了。但这款模型有点不一样,358B参数的MoE架构,关键是MIT开源协议------这意味着你拿去商用都没问题。

光看参数和协议没意思,模型好不好用,还得实测才知道。我花了几个小时把这款模型从简单到复杂折腾了一遍,下面跟大家聊聊真实的使用感受。

先说说官方给的成绩单

在看实测之前,简单过一下官方公布的基准测试数据。

数学竞赛这一项,GLM-4.7拿了95.7分,直接超过了GPT-5.1。代码能力方面,超过了DeepSeek 3.2和Claude Sonnet 4.5。科学推理、复杂推理这几个维度,基本都是同样的结果------比DeepSeek 3.2强,跟Claude Sonnet 4.5打得有来有回,部分指标还有明显优势。

当然,基准测试这东西,大家心里都清楚,参考价值有限。真正好不好用,还是得拉出来遛遛。

第一轮:前端能力试水

一句话生成太阳系动画

先从简单的开始。我在官方网页版输入了一句话:"用SVG生成模拟太阳系的动画"。

结果确实让我有点意外。它不仅画出了八大行星围绕太阳公转的动画,而且动画相当流畅。放大之后能看到行星的运行轨迹,月球绕着地球转,土星还带着光环。

就这么简单的一句提示词,能出这个效果,前端基础能力是过关的。

冒泡排序可视化

接下来加点难度。我让它创建一个冒泡算法的动画演示,要求画面里有12颗大小不同的小行星,还有一艘指挥舰来执行排序操作。

这个任务其实挺考验综合能力的------算法理解、前端实现、动画设计、交互逻辑,缺一不可。

最终效果:点击开始后,指挥舰会在小行星上方移动,发现左侧的小行星比右侧大,就执行交换。整个过程有状态提示,显示"正在比较"或"正在交换",运行全程没有报错。

到这里,基本的前端+算法能力算是验证通过了。

3D恐龙狩猎游戏

然后是真正的硬菜------让它从零开发一个3D风格的恐龙狩猎游戏。

要求挺复杂的:玩家操控一辆装有机枪的皮卡车,用鼠标瞄准射击恐龙,键盘控制车辆移动。场景要有侏罗纪风格,原始森林、高大植物、岩石、河流、火山,还要有雾气效果。

坦白讲,发出这个提示词的时候,我没抱太大期望。这种需求涉及3D图形渲染、物理碰撞检测、AI行为系统、多模态交互,一般的模型做出来要么跑不起来,要么就是一堆报错。

结果出乎意料------游戏真的能玩。皮卡车可以用键盘控制移动,鼠标瞄准射击。远处会刷新恐龙,小型恐龙两三枪就倒,大型恐龙要多打几枪。开枪后恐龙还会逃跑,打死后尸体会消失。远处能看到山脉和雾气效果,游戏结束后会显示得分。

能一次跑通这么复杂的游戏项目,说明它对大规模代码组织和系统性工程实现的能力确实不弱。

数学推导动画

接着测试了数学能力。让它创建一个演示圆面积公式推导过程的交互动画。

这个任务的难点在于把抽象的数学概念变成直观的视觉呈现。需要理解极限思想,还要把圆切割、重排成近似长方形的过程用动画展示出来。

最终效果很不错。可以设置切割数量,比如切成64份,然后看着这64个扇形被分开、重组成一个近似的长方形,高是半径r,底边是πr。下面还有文字解释切割原理、重排原理、极限思想,公式推导一目了然。

这种把复杂概念可视化的能力,在教育场景下应该挺有价值的。

PPT自动生成

最后试了一下让它根据网页内容自动生成PPT。给了一个GLM-4.7的官方介绍链接,让它直接做成演示文稿。

生成的PPT有模型介绍、核心特性、基准测试数据、三大思考模式、使用方法、产品优势等内容,还自动配了代码截图和数据图表。

作为一键生成的初稿,效果算是及格线以上,拿来稍作修改就能用。

第二轮:Claude Code接入测试

前端能力测完了,接下来试试在Claude Code中调用这款模型,测试它的工具调用能力和复杂编程能力。

配置方法

接入方式很简单,三条命令搞定:设置Base URL、API Key、模型ID。海外用户可以通过z.ai平台获取API,国内用户用BigModel平台。

启动Claude Code后,模型ID显示为GLM-4.7,说明接入成功。

浏览器自动化测试

这部分使用了谷歌官方的Chrome DevTools MCP来测试浏览器自动化能力。

任务是:访问我的博客,点击进入前三篇文章,提取内容,然后改写成适合发X(原Twitter)的短文案。

整个过程看着它自动打开浏览器,点击第一篇博客、返回首页、点击第二篇、返回、点击第三篇,然后提取内容进行改写。最终输出了三篇带emoji表情和标签的X Post,运行速度也挺快。

工具调用能力没问题。

终极测试:iOS原生APP开发

压轴的是一个难度拉满的任务------开发一款iOS原生背单词APP。

要求支持iOS 17+、Swift 5.9、SwiftUI、SwiftData、Swift Charts等技术栈。功能包括:首页展示学习进度、单词卡片支持正反面3D翻转动画、练习测试模块、学习进度统计图表、设置模块等。

先用Xcode初始化一个空项目,然后在Claude Code中执行init命令生成CLAUDE.md文件,让它理解项目结构。接着进入计划模式,粘贴完整需求,让它制定开发计划并执行。

等了大概十多分钟,它完成了开发。然后我又让它把显示语言改成中文。

在Xcode中运行,编译成功。测试结果:可以滑动卡片切换单词,点击翻转查看中文释义,点击"已掌握"后自动切换下一个单词,有每日目标显示,练习和进度模块也能正常使用。

唯一没实现的是设置功能,不过让它继续补充应该问题不大。

能在十几分钟内完成一个功能相对完整的iOS原生应用,这个复杂编程能力确实有点东西。

几个值得关注的特性

除了实测体验,GLM-4.7还有几个设计上的亮点值得一提:

三种思考模式。Interleaved Thinking是在每次响应和工具调用前先思考;Preserved Thinking是在多轮对话中保留之前的思考过程,不用每次从头推导;Turn-level Thinking是支持按轮次控制是否启用思考,简单问题关掉思考降低延迟,复杂任务打开提高准确性。

这种设计对长链路、多步骤的Agent任务应该挺有帮助,能减少信息丢失和前后不一致的问题。

上下文和输出限制。200K的上下文窗口,128K的最大输出长度,做复杂项目的时候不太容易撑爆。

开源友好。权重在HuggingFace和ModelScope都能下载,支持vLLM和SGLang本地部署,MIT协议商用无压力。

总结

折腾了一圈下来,说说我的真实感受:

GLM-4.7的前端能力确实不错,从简单的SVG动画到复杂的3D游戏都能一次跑通,代码组织能力和工程实现能力在开源模型里算是第一梯队。工具调用稳定,iOS原生开发也能应付,综合编程能力比上一代有明显提升。

当然,基准测试里那些"超越GPT-5.1"、"领先Claude Sonnet 4.5"的说法,还是要打个问号。毕竟基准测试和实际使用场景差异很大,而且不同任务表现可能差别也不小。

但不管怎么说,作为一款MIT协议的开源模型,能做到这个水平,对开发者来说是个好消息。毕竟有竞争才有进步,开源生态越卷,大家的选择就越多。

想试试的可以去z.ai(海外)或BigModel平台(国内)体验网页版,也可以在Claude Code里通过API调用。本地部署的话,HuggingFace上有权重可以下载。

相关推荐
NineData2 小时前
NineData第三届数据库编程大赛:用一条SQL解数独问题
数据库·云计算·ai编程
FreeCode3 小时前
一文带你了解LangChain数据容器及其使用
langchain·agent·ai编程
俊劫5 小时前
AI 编码技巧篇(内部分享)
前端·javascript·ai编程
樊小肆5 小时前
ollmam+langchain.js实现本地大模型简单记忆对话-PostgreSQL版
前端·langchain·aigc
人工智能训练7 小时前
Docker Desktop WSL 集成配置宝典:选项拆解 + 精准设置指南
linux·运维·服务器·人工智能·docker·容器·ai编程
AskHarries7 小时前
Claude CLI 使用指南(Step by Step)
后端·ai编程
土丁爱吃大米饭7 小时前
AIGC开发游戏素材之序列帧动画
lora·aigc·comfyui·序列帧动画·webui
阿杰学AI7 小时前
AI核心知识62——大语言模型之PRM (简洁且通俗易懂版)
人工智能·ai·语言模型·自然语言处理·aigc·prm·过程奖励模型
用户5191495848457 小时前
基础设施模板CLI工具:Boilerplates
人工智能·aigc