商鞅变法与代码重构:AI正在如何重写软件工程的“耕战律令”

引言:都江堰的隐喻------治水与治码

公元前256年,蜀郡守李冰站在岷江出山口,面对的是一个延续千年的困局:江水夏涨冬枯,灌县以上为患,灌县以下为利。历代治水者筑堤挡水,垒石为堰,然而水势无常,堤毁人亡的惨剧每隔数年便重演。李冰没有选择加高堤坝,而是凿开玉垒山,修建鱼嘴分水、飞沙堰溢洪、宝瓶口限流------从此岷江被驯服,成都平原"水旱从人,不知饥馑"。

都江堰的智慧,不在于"堵",而在于"疏";不在于建造一个坚不可摧的静态工程,而在于设计一套因势而变的动态系统。"深淘滩,低作堰"这六字诀,本质上是承认自然力的不可对抗,转而寻求共处之道:深淘以通流,低堰以泄洪,岁修以应变。都江堰不是被建成的,而是被持续"重构"了两千年。

这套治水逻辑,与软件开发正在经历的范式迁移惊人相似。

长久以来,我们习惯将软件开发视为"筑坝拦水"。瀑布模型如精心勘测的堤防图纸,需求分析是地质勘探,详细设计是工程蓝图,编码是浇筑混凝土,测试则是闭闸蓄水------每一个变更都需重新审批,每一次迭代都如大坝加固般如临大敌。我们建造了无数坚固的"软件堤坝",却也承受着交付周期漫长、响应市场迟滞的代价。当业务需求如岷江夏汛般奔涌而来时,最坚固的堤坝,往往第一个被冲垮。

而AI Coding带来的,是一场从"筑坝"到"导流"的认知革命。

当GitHub Copilot生成46%的代码,当Cursor根据上下文推荐整个函数,当测试用例从手工编写变为智能探索------我们看到的不是工具的迭代,而是系统逻辑的根本切换:不再试图在编码前穷尽所有变化,而是在变化发生时实时响应;不再用静态规则禁锢动态需求,而是在动态演进中维持系统秩序。这恰如都江堰的鱼嘴分水:水势大时多入外江,水势小时多入内江,无需人工干预,只靠一套精巧的分流逻辑。

然而,这组数据也伴随着尖锐的争议:Copilot生成的代码缺陷率是否高于人类编写?AI推荐的测试用例是否覆盖了真正的风险边界?当代码学会自动生成,当测试学会智能执行,那个曾经掌握"编码技艺"和"测试经验"的人------你的岗位,会像都江堰的纤夫一样消失,还是会像李冰一样,从扛石头的劳力,升维为设计分流法则的总工程师?

这是每一家引入AI Coding的团队都无法回避的拷问。而答案,或许就藏在都江堰另一个鲜被提及的事实里:李冰之后两千年,每一任蜀地官员都必须读懂"深淘滩,低作堰"的岁修法度,每一位堰工都必须掌握竹笼石埂的编织手艺。工具变了,分工变了,但治水这件事,从未离开人的判断。

因此,本文试图论证的不是"AI取代人",而是"重构不是取代,而是分工重组"。正如都江堰让治水从对抗自然转向因势利导,AI Coding也在迫使开发测试环节从"防错"的静态守卫,转向"容错---修复---进化"的动态平衡。这场重构的终点,不是没有人写代码,而是每个人都必须重新回答那个古老的问题:

当代码学会写自己,我们要为它设定怎样的河道?

第一板块:商鞅"废井田,开阡陌"------AI如何打破开发与测试的边界墙

战国初期,秦国僻处西陳,被山东六国视为夷狄。其根本症结,不在兵不利、地不广,而在"井田制"划地为牢。千步为阡,百步为陌,田块如棋盘,封疆不可越。农民世代困守私田,公田荒芜不治;都邑有仓廪之虚,野外有旷土之弃。商鞅入秦,悬木立信,随后一刀劈向这维系了六百年的土地秩序:"为田开阡陌封疆,而赋税平。"

这一刀,劈的不是田埂,而是资源流动的禁令。阡陌既开,秦民可垦荒地,可易田产,可授田于有功者。三十年后,关中"粟如丘山",秦国以一隅之地供养起横扫六合的战争机器。

今天,软件工程的"井田"同样到了非破不可的时刻。

这道阡陌,叫做"开发写代码,测试写用例"。

传统分工曾有其合理性:开发者专注于构造逻辑,测试者专注于验证逻辑,如同井田制中"公田"与"私田"各司其劳。然而,这套边界在AI进入编码环节后,已从专业分工沦为资源空转。当GitHub Copilot在开发者键入函数名时同步生成单元测试骨架,当Cursor根据代码上下文智能推测边界条件并补全断言语句,当静态代码扫描工具以毫秒级速度将潜在空指针、内存泄漏标注在编辑器的红色波浪线下------开发者其实已在"写测试",只是他尚未意识到自己跨越了那条陈旧的边界。

更深刻的变化发生在测试左移的终点站。过去,测试数据是一种"配给品":开发完成提测,测试提交申请,DBA排期脱敏,导出导入,环境适配------这套流程吃掉一个迭代30%的时间,却只产出几万行静态的、不可重复利用的数据快照。而今,AI合成数据生成工具可根据业务模型实时创造高仿真数据,智能打标引擎能从生产日志中自动萃取合规的影子流量。测试不再"等米下锅",而是与需求分析同步展开:产品经理编写用户故事的同时,测试工程师已在用自然语言描述数据特征,AI随即生成对应的测试数据集。

边界模糊,必然引发恐慌。

一如当年甘龙、杜挚诘问商鞅:"利不百,不变法;功不十,不易器。"今天同样有人质问:AI生成的测试用例,你敢签报告吗?开发者边写边测,质量左移了,责任是否也左移了?测试人员若不再掌握用例设计的独门技艺,其专业价值安在?

这些质疑并非全无道理。但《商君书·更法》早已回应过:"疑行无名,疑事无功。"------行动迟疑便建不成功业,决策犹豫便留不下名声。当下质疑AI写代码有缺陷的人,正如当年质疑废井田会乱制的人。问题的关键从来不是"AI是否完美",而是"旧范式是否已到极限"。

事实是,软件交付频率已从季度级压缩至天级,传统"开发---提测---回归"的三段式流程在极限压力下处处裂缝。维护那些隔阂开发与测试的"封疆阡陌",每维持一天,就要付出一天的组织成本。而AI提供的不是完美无瑕的替代方案,而是一条让资源重新流动起来的通道。

边界消失,不等于岗位消失。

商鞅废井田,并未废除农民;他改变的是土地与劳力的结合方式。AI模糊开发与测试的分界,亦非让测试人员失业,而是逼迫两种角色在碰撞中重塑能力结构。

未来的开发者,不能只懂如何调用API,而必须理解被测对象的边界条件、等价类划分、变异测试策略------因为他正在实时接收AI反馈的缺陷预警,他需要判断这是误报还是真阳性。未来的测试者,不能只熟悉黑盒用例设计,而必须读懂代码变更影响域、理解持续集成门禁的配置逻辑------因为他要训练AI生成更精准的回归用例,而非徒劳地执行全量回归。

这恰恰是商鞅变法留给组织变革最深刻的遗产:废除旧边界的目的,不是摧毁秩序,而是建立一种更高效的要素流动秩序。 井田制瓦解后,秦国推行"辕田制",农民可因功受田,土地向高产者集中。同样,开发与测试边界打破后,角色向"全栈质量意识"集中:谁离代码最近,谁就承担第一道质量防线;谁离用户最近,谁就定义验收标准。

AI不是来阉割专业能力的,它是来逼迫专业能力进化的。两千三百年前,商鞅用一道法令让秦国从"守在边关"转向"攻在六国"。今天,AI Coding正在迫使每一个软件工程师回答一个问题:

你究竟是想守住那条正在被浪头拍打的旧田埂,还是拿起新的工具,去开垦那片从未被算法耕作过的荒地?

第二板块:赵武灵王"胡服骑射"------测试策略的重构:从经验驱动到算法驱动

公元前307年,赵武灵王北巡边境,目睹了一个令他脊背发凉的事实:赵国坐拥代郡、九原的千里马场,战车列阵曾让中山国胆寒,可当林胡、楼烦的骑兵如风般掠过太行山时,那些花费三年训练的战车兵,连敌人的袍角都够不着。

是战车不够坚固吗?是弓弩不够犀利吗?都不是。问题出在底层逻辑上------车战讲究列阵对攻,甲士披重铠,驭手持长戟,战场是约定俗成的平原;而骑兵作战没有阵型,没有预告,没有"合乎礼法"的交锋时机。赵雍做了一件让宗室瞠目的事:脱下宽袍大袖的华夏衣冠,穿上胡人的短褂长裤,把战车兵赶下马,教他们学习骑射。

"循法之功,不足以高世;法古之学,不足以制今。"------这是两千三百年后,仍在叩击每个测试负责人的警钟。

传统测试策略,本质上是一场"车战思维"的遗产。

它依赖什么?依赖"专家经验"。老测试员能凭直觉说出"订单模块每逢大促必出并发漏洞""退款流程在账期切换时容易死锁",这些经验被编成检查清单,代代相传。测试用例库是战车兵的长戟,每轮迭代都要拖出来列阵;回归测试是约定俗成的平原会战,排期一周,全量执行,通过即放行。

这套逻辑在软件交付周期以月为单位时是有效的。但今天,代码由AI生成,变更以小时为频次,缺陷不再均匀分布在静态模块,而是成群结队地埋伏在AI生成的逻辑缝隙里。 那些依赖"去年双十一出过Bug,今年这里也要重点测"的经验,正在批量失效------因为AI生成的代码,并不会继承人类的故障记忆。

三个维度的重构,必须同时发生。

第一,用例生成逻辑的重构。 过去十年,自动化测试的主流叙事是"RPA录制回放":人点一遍,机器记下来,下次照着重播。这是战车思维的自动化------更快地列阵,但依然是列阵。而AI时代的用例生成,是根据代码变更实时计算影响域:Git diff流入算法模型,AI判断哪些函数被调用链波及、哪些边界值被修改触达、哪些历史缺陷模式与新代码相似,然后动态组装出回归用例集。这不是录制,这是推演。

第二,执行调度逻辑的重构。 全量回归跑八小时,曾是质量部门的安全感来源------"至少我跑过了所有用例"。但这种安全感是虚假的:八小时反馈周期,在每日十次部署的节奏下,等于没有反馈。AI缺陷预测模型正在改变游戏规则:通过分析代码变更特征、测试覆盖率映射、历史缺陷分布,算法可以在数秒内输出一份预测报告------"执行这20%的用例,你有80%的概率捕获本次变更引入的缺陷"。剩下的八小时,可以留给夜间深度扫描。这不是偷懒,这是把火力集中在真正的战场上。

第三,结果判定逻辑的重构。 传统断言是"1或0"的逻辑门:预期返回值是200,实际返回201,用例失败。但AI生成的应用正在大量涌现非确定性输出------智能客服的话术、图像识别的边界、推荐算法的排序。人工比对预期结果已成瓶颈,而AI驱动的断言引擎通过视觉相似度、文本语义匹配、向量距离计算,正在识别一种叫"模糊正确"的状态:结果不精确等于预期,但业务上可接受。这是从"二进制审判"到"概率评估"的范式跨越。

三个重构汇聚成一个根本性的角色转换。

过去,测试是守门员。职责是扑出每一个射向球门的球,失球就是失职。但守门员有一个致命缺陷:他只有在球即将进门时才被看见。 测试介入的时刻,永远是代码已写完、需求已锁定、上线倒计时已启动的时刻。此时发现缺陷,代价已是编码阶段的数十倍。

AI时代的测试,正在变成导航员。导航员不问"你错过了几个路口",而是问"你希望以最低的油耗到达哪里"。测试的价值不再是阻止错误发布,而是引导代码以最低成本修复。 缺陷发现得越早,修复成本越低------这个朴素真理过去受限于工具,今天终于有了算法支撑。

赵武灵王推行胡服骑射后,赵国"北破林胡、楼烦,筑长城,自代并阴山下"。他没有让战车兵消失,而是让他们转型为骑兵、弩兵、斥候。旧的兵种找到了新的战法,这是"重构"不同于"革命"的地方。

今天,如果你还在用五年前的测试策略测试AI生成的代码,就像穿着宽袍大袖骑战马------你确实骑上去了,但风灌满衣袖,你连弓都拉不开。而你的对手,那个已经跑通AI驱动测试的团队,正像赵国的骑兵一样,从你看不见的山坡俯冲而下。

"法古之学,不足以制今。" 战车曾经无敌,直到它遇见不需要列阵的敌人。

第三板块:范仲淹"庆历新政"与"新政失败"------重构的阵痛与组织惯性

庆历三年九月,宋仁宗擢升范仲淹为参知政事,颁下手诏,语气急迫:"比以中外人望,不次用卿。今朕亲笔题写'新政'二字,卿其悉奏天下利害。"

范仲淹随即呈上《答手诏条陈十事》。明黜陟、抑侥幸、精贡举、均公田......十项改革,刀锋直指北宋积弊最深之处:恩荫。彼时,一名三品大员退休,可荫补数十名子弟入仕;冗官如蝗虫过境,州县委官而不得履职,履职者不得专权。范仲淹取来三班院名册,一笔勾销不合格者,富弼在旁劝阻:"一笔勾之甚易,焉知一家哭矣。"范仲淹回:"一家哭,何如一路哭耶?"

然而,新政仅存一年零四个月。恩荫既得利益集团反扑如潮,谤言入枢密,流布禁中。庆历五年正月,范仲淹罢参知政事,出知邠州。富弼、欧阳修相继贬逐。十事废弛,冗官依旧塞途。

九百八十年后,另一场"新政"正在软件工程的组织肌理中艰难推进。

它的阻力同样不在技术,而在人、在流程、在那些被旧范式喂养多年的既得惯性。GitHub Copilot已生成46%的代码,Cursor让函数补全如行云流水,AI测试生成工具能以秒级产出千行用例------但无数技术负责人仍在会上摇头:"AI生成的用例,谁敢签报告?"

这就是第一道阵痛:信任痛,实为权责痛。

手工编写的测试用例,缺陷责任归属明确:张三设计,李四执行,王五复核。而AI生成的用例,源头是一段Prompt,训练数据来自开源社区的千万仓库,断言逻辑由神经网络权重隐式表达。用例漏掉了关键边界,上线引发P0事故------谁该为这次"算法误判"负责?是写Prompt的测试工程师,是部署模型的平台团队,还是批准引入该工具的部门总监?权责图谱从未如此模糊,而组织对模糊的容忍度,从未如此之低。

第二道阵痛来自技能体系断层。

那位在功能测试岗位上蹲守十二年的老测试员,闭着眼能背出电商订单的二十七种异常流程,却不知如何向AI描述"请生成一份包含跨天交易、优惠券叠加以库存临界值的测试数据集"。他成了Prompt时代的"新文盲"------经验依然富集于大脑,却无法通过新语言的接口输出。与此同时,开发者发现自己的职责边界正在塌陷:从前写完代码推给测试便告一段落,如今AI把静态扫描、单元测试、甚至部分集成测试塞进了编码阶段。IDE里红色波浪线密布,构建日志被AI注释填满。他们抱怨:"活多了,而且是我看不懂的活。"

第三道阵痛最为隐蔽,也最为致命:度量体系与重构价值之间,横亘着一道翻译鸿沟。

组织的注意力流向被KPI定义。当代码行数依然是开发者核心产出指标,谁会主动压缩冗余逻辑、删减AI生成的无效代码?当用例执行数依然是测试团队绩效锚点,谁会拥抱那个"只跑20%用例就能发现80%缺陷"的智能调度系统?重构带来的收益------更短的交付周期、更低的修复成本、更少的线上故障------是系统性的、延迟反馈的、难以拆解到个人季度绩效的。而重构支付的成本------学习曲线、流程改造、责任让渡------是即期的、显性的、可以归属到具体个体的。这是一种极度不公平的交易结构,却没有人愿意为重构价值建立新的记账单位。

破局之道,首先在角色创设。

庆历新政失败,一个重要原因是范仲淹没有在原有官僚体系中嵌入"变法特使"------弹劾恩荫的奏疏仍需经由恩荫出身的宰相转呈。今天,任何引入AI工程化实践的团队,都应设立一名"重构指挥官"。这不是虚衔,而是专职:此人既不是架构师,也不是技术总监,而是专攻"AI工程化落地障碍清除"。他负责定义AI生成代码的准入标准,协调法务与合规部门划定责任边界,组织Prompt工程能力内训,并在绩效校准会上为那些因重构而产出指标下滑的团队成员辩护。Scrum Master为敏捷而生,重构指挥官为AI而生。

其次,在债务管理策略。

北宋冗官积重难返,范仲淹试图"一笔勾之",结果是既得利益集团集体反扑。AI重构需要另一种智慧:容忍债务,但让债务显性化。 我们可以在缺陷追踪系统中设立"AI生成代码缺陷债"标签,允许团队在迭代压力下合入部分低质AI代码,但前提是必须同步录入一条测试债记录------"此函数由Copilot生成,边界条件未覆盖,需在下个冲刺补充用例"。债务不可消灭,但可度量、可排期、可偿还。庆历新政欲"一日去百年之弊",故败;熙宁变法"渐变常平为青苗",故能持十年。

技术重构是三天的事,组织重构是三年的事。

今天我们在IDE里接通的每一个AI插件,在CI/CD流水线上配置的每一个智能预测模型,在测试用例库中沉淀的每一段合成数据------都是这场漫长重构的试验性项目。它们会有失败,会有回滚,会有被既得利益者嘲笑的"一年零四个月"。但没有庆历新政,就没有熙宁变法;没有今天那些权责未明、技能断层、度量失效的试点团队,就没有未来某天,当AI生成代码成为默认配置时,那套早已磨合完毕的组织范式。

范仲淹罢相那日,开封大雪。他出陈桥门,回望禁中,对送行者说:"异日容我重来。"十六年后,他病逝徐州,再未重来。但青苗法、免役法、均输法终究由王安石推行天下。

今天每个试验性项目,都是未来标准化的路条。 那条路上不再刻着范仲淹的名字,但每一寸路基,都由庆历新政的碎骨压实。

第四板块:王阳明"事上磨练"------AI时代的开发者,需要怎样的新能力

正德三年,贵州龙场,王阳明于穷荒无书之日,日夜端居澄默。某夜三更,他忽从石椁中跃起,大笑不止:"圣人之道,吾性自足,向之求理于事物者误也!"这便是著名的"龙场悟道"。

然而后世误读至此------以为阳明之学,是空谈心性,是闭目静坐,是唾弃事功。殊不知《传习录》通篇有一最硬的骨头,叫"事上磨练"。弟子陆澄问:"静时亦觉意思好,才遇事便不同,如何?"先生答:"人须在事上磨,方立得住,方能'静亦定,动亦定'。"

你不在具体的事上磨过,你的定力就是假的。

这句话,应该刻在每一个AI辅助开发者的IDE上方。

旧能力的黄昏

我们必须承认一个令从业者不安的事实:过去二十年我们引以为傲的许多硬技能,正在批量贬值。

精通某一门编程语言的语法特性?Cursor的自动补全准确率已超过人类平均水平。熟练编写复杂的联表SQL?AI能根据自然语言描述直接生成带窗口函数的查询语句。手写正则表达式提取字符串?ChatGPT闭着眼写出的模式,比你调试半小时的更周全。

这不是危言耸听。GitHub Copilot生成46%代码的那份报告,还有一个常被忽略的注脚:开发者接受AI建议的比例,与语言特性掌握程度呈负相关。 换句话说,越是熟读ECMAScript规范的人,越是逐字审阅AI的产出;而依赖肌肉记忆写代码的人,正在批量合入AI生成的低质逻辑。

旧能力贬值不可怕,可怕的是以为这就是终点。

新能力的三个方向

王阳明从不反对读书,他反对的是"徒事口耳"的读书。同样,AI时代的新能力,不是抛弃编码,而是把认知资源从低阶的"怎么写"中解放出来,投向高阶的"为什么写"与"写对了没有"。

第一,辨识AI生成的代码是否符合业务语义,而非仅语法正确。

这是最核心,也最难迁移的能力。语法正确由编译器担保,业务语义只有人担保。AI生成的订单扣库存逻辑,单元测试全绿,代码覆盖率90%,但它违背了"预售商品不占用现货库存"的产品规则------这类错误编译器永远不会报错,而传统代码审查依赖的"逐行阅读"面对AI的大段生成,效率已如独轮车追高铁。

未来的开发者需要一种新直觉:不是"这段代码写得漂亮",而是"这段代码看起来太规整了,不像处理过真实世界的脏数据"。能辨识"语义裂缝"的人,才是AI时代的合格验收者。

第二,编写高质量Prompt,驱动测试场景生成。

功能测试的式微已成定局。手工设计等价类、边界值仍然是素养,但真正的效率杠杆在于:你是否能用三两句话,让AI生成覆盖三十种异常组合的测试数据集。

这里需要的不是"咒语背诵",而是结构化思维。高手写Prompt,开头定角色,中间给示例,结尾约束输出格式。他知道何时用"请你模拟一个刚注册但从未下单的用户",何时用"请生成符合PII脱敏规范的欧洲用户数据"。这是测试思想的新容器,从前用Excel装,现在用自然语言装。

第三,快速阅读AI生成的变更影响图谱,而非逐行看diff。

逐行diff正在成为奢侈品。当一次PR包含上百处AI重构的命名优化、类型推导、死码删除,人类的眼球无法在有限时间内完成语义理解。但工具给了我们新眼镜:影响图谱、调用链染色、风险热力图。

读图能力,成为新读写能力。你不必知道每一行变成了什么,但必须知道"支付流水号格式化函数被修改,涉及下游三个对账服务、一个风控回调"。这是架构思维的显性化,从前存于资深工程师的脑中,现在由AI绘制,由人决策。

事上磨练,才能动亦定

王阳明平宁王之乱,只用四十一天;剿南赣匪患,行十家牌法;巡抚两广,带病出征。他不是坐在书院里悟出"知行合一"的,是在马背上、战场中、奏疏间磨出来的。

能驾驭AI重构的人,也不是背熟了语法手册或Prompt大全的人。

是在无数次AI生成空指针时,默默补上判空的人。

是在AI推荐一个"优雅"的函数式写法、但团队没人能维护时,果断改成显式循环的人。

是在缺陷债看板上,给那条AI生成的测试用例打上"待补充边界值"标签,并排入下个迭代的人。

------是那些在具体的事上磨过的人。

结语:第二次机会

每一个维护过五年以上遗留系统的人都知道,代码如债务,利息日增。那些因业务压力仓促堆叠的逻辑,那些早该提取却永远没时间提取的公共函数,那些无人敢碰的"神类"------它们压垮了无数重构的雄心。

AI给了我们第二次机会。

不是因为它能重写一切------它不能。是因为它把人类认知从重复劳动中释放出来,让我们终于有余力去偿还那些历史债务。重构从来不是目的,可持续交付才是。而可持续交付的前提,是系统可理解、可修改、可测试。

李冰修都江堰,不是为了让江水永不泛滥,是为了"水旱从人"。同样,AI重构开发测试,不是为了消灭缺陷,是为了让缺陷发生时,我们能以最低成本修复。

两千年前的蜀地,岁修是堰官和堰工的日常。

今天的软件团队,重构也应是开发者和测试者的日常。

事上磨练。日日不断。

代码正在学会写自己,但代码为什么而写,去哪里,交付怎样的价值------

那从来不是算法的问题。

那是人的问题。

相关推荐
大傻^2 小时前
【AI安全攻防战】提示词攻击与防护:从“奶奶漏洞“到企业级防御体系
人工智能·安全·提示词安全
大学在校生,求offer联系2 小时前
YuFeng-XGuard-Reason安全护栏模型实测评价
人工智能·安全
Hcoco_me2 小时前
深挖 TBD 核心进阶点:深度学习匹配(目标关联的“智能指纹”)
人工智能·深度学习·目标检测·计算机视觉·目标跟踪
Σίσυφος19002 小时前
四元数 欧拉角 旋转矩阵
人工智能·算法·矩阵
GitCode官方2 小时前
智谱最新一代旗舰模型 GLM-5 开源,AtomGit AI 首发上线
人工智能·开源
马腾化云东2 小时前
Agent开发应知应会(Langfuse):Langfuse Session概念详解和实战应用
人工智能·python·llm
2501_924878732 小时前
矩阵跃动AI口播智能体:自研语音引擎破解数字人嘴型滞后、情绪扁平、方言失真——以粤语政务短视频为例
人工智能·深度优先·动态规划·政务
Deepoch2 小时前
Deepoc具身模型开发板:赋能除草机器人,解锁智慧农业精准作业新能力
人工智能·科技·机器人·开发板·具身模型·deepoc·除草机器人
司南OpenCompass2 小时前
Gemini-3-Pro-Preview登顶,大模型迈入Agent元年丨大语言模型1月最新榜单揭晓
人工智能·大语言模型·多模态模型·大模型评测·司南评测