本文聚焦各模型的最新进展,核心特点和劣势,以及一些博主个人的看法,初衷为帮助我个人整理思路。
本文原始素材由博主通过多种渠道自行收集并整理,客观信息摘自公开渠道,个人评价会带有主观色彩。
写在前面
距离上一篇博客刚好一个月,本以为可以歇一阵子,结果4月这一个月密集到我都觉得自己写慢了:OpenAI、Anthropic、Google、xAI、Meta、Mistral六家国际厂商挨个发了新版本或新产品,国内这边DeepSeek V4、Qwen3.6、Kimi K2.6、GLM-5.1、MiniMax M2.7开源也全都凑在4月。再加上美国小团队Arcee AI开源Trinity-Large-Thinking冲上OpenRouter的事,还有小米MiMo V2.5系列开源后直接登顶Artificial Analysis全球开源榜,我觉得有必要把这两位也拉进来,所以这一版直接扩到了15款。下面正文里只看4月相关动态,呼应一下上一篇的判断,老观点对的继续说,错的更正。
国际模型
1. OpenAI --- GPT 系列
最新版本:GPT-5.5(2026年4月23日),开源状态:闭源
核心定位:从"通用旗舰"正式转向"代理型旗舰"。距离3月底的5.4只有6周,5.5在多步骤任务(编程、科研、计算机操作)上做了专门优化,延迟与5.4基本一致,但同等编程任务的token消耗明显降低。已在Plus/Pro/Business/Enterprise全线推开,API同步开放,Pro版另有独立调用入口。定价上,标准版输入/输出 5/30 per M tokens,Pro版 30/180 per M tokens,没什么特别的惊喜,但也没涨价。
个人评价:上次说"够用",这次还是这两个字,但补一句"快得离谱"。6周一个版本号的迭代节奏其实有点反人类,对开发者来说每次都要重新评估prompt和工具兼容性。OpenAI这种"我每周给你一点惊喜"的打法,更像在维持商政军市场对ChatGPT 1号位的印象,让客户没有理由换别家。对个人用户,5.4和5.5的差别其实没那么大,但你要做长程Agent任务,5.5是值得切的。Polymarket那边赌5.6不到6月就发,到时再来一次。
2. Google DeepMind --- Gemini / Gemma 系列
最新版本:Gemini 3.1 Pro(含4月新增Flash Live语音版、Flash TTS Preview)、Gemma 4开源(2026年4月2日,26B/31B),开源状态:Gemini闭源、Gemma开源
核心定位:4月Google一边继续推闭源Gemini 3.1家族,一边把开源主力升到Gemma 4,又在Cloud Next '26上喊出"代理纪元"的口号,顺便推了Gemini Enterprise Agent Platform和第八代AI芯片。Gemma 4本身规模并不大,定位是企业本地化和小型Agent;Gemini 3.1的几个Live/TTS变体则把语音赛道补齐。
个人评价:上次说Google走的是"生态训练模型,模型反哺生态"的路子,这个月看得更清楚了------自己造芯片、自己排平台、自己定生态、自己出开源底座。第八代芯片这块其实让我对Google的长期路线更有信心,毕竟其它家说要降算力成本都得求英伟达,Google可以自己内循环。短期对个人用户没什么直接影响,Gemini 3.1 Pro用着没毛病,依然限流偶尔出现。Gemma 4更多是给企业玩的,自己折腾的话可以试试,但消费侧体验没什么变化。
3. Anthropic --- Claude 系列
最新版本:Claude Opus 4.7(2026年4月16日),另有限制性预览Claude Mythos(4月7日宣布),开源状态:闭源
核心定位:Opus 4.7主要在三个维度上对4.6做了升级------多模态分辨率提升到3.75MP,代理编程稳定性进一步加强,工具调用容错率改善,依然是企业级长程Agent的首选。Bedrock、Vertex、Microsoft Foundry全渠道铺开。Mythos是个有意思的东西------能力远超Opus 4.7,但只对11家机构开放,Mozilla用它在Firefox里找并修复了271个安全漏洞。另外4月17日还顺手上了一个Claude Design,做原型图/PPT/单页文档生成,可导出到Canva。
个人评价:上次说"伟大无需多言",这次还是这话。但Mythos这套限量分发的玩法我得吐槽两句------一边强调"超强模型有滥用风险所以不公开",一边又拿出来给合作方刷新闻,本质上是把"安全话术"包装成了营销策略。当然如果Mozilla这个271个漏洞是真的,那确实是个有力的案例。Claude Design这个产品我也试了试,定位很清楚就是给非技术用户做轻量演示物料,跟Canva的整合是亮点。对开发者来说,4.7在Claude Code里继续好用,建议无脑切。账号风控这块,4月一点没放松,依然要小心。
4. xAI --- Grok 系列
最新版本:Grok 4.3 Beta(2026年4月17日静默上线),开源状态:闭源
核心定位:4.3在4.1基础上加了原生视频输入、文档/表格/PPT直接生成,以及与Grok Computer的更深集成,依然是2M token上下文。语音方向同步推出了独立STT/TTS API,4月30日最强语音代理也开放了API调用。
个人评价:上次说老马吹得好听,这次"4.3来了,5还远"。Grok 4.3只有SuperGrok Heavy用户能用,每月$300,门槛真不便宜,关键还没解决跨会话记忆这种基础体验问题,X上已经骂上天了。语音代理这块倒是有点意思,做实时对话场景可以关注一下API。但作为日常生产力,Grok依然不够稳,老马年中要追上竞争对手的flag还没倒,但5月已经过半了,Grok 5依然没影,再观望。
5. Meta --- Llama / Muse 系列
最新版本:Llama 4 Scout/Maverick(2025年4月,老版本),Muse Spark(2026年4月8日,首款闭源),开源状态:Llama开源、Muse闭源
核心定位:4月Meta放了个大新闻------Meta Superintelligence Labs(MSL,由前Scale AI CEO Alexandr Wang领衔)发布了首款闭源专有模型 Muse Spark,仅在meta.ai上提供,不开源权重,主打"思维压缩"技术,推理效率比Llama 4 Maverick高一个数量级。与此同时,Llama 4 Behemoth还在训练,没影;Llama生态累计下载量倒是冲到了12亿次。
个人评价:上次说"等Avocado发布了再看看",结果Avocado没等到,先等来个闭源的Muse Spark。Meta这一步在开源社区里其实挺有争议的------你之前靠Llama树立的"开源开放"形象,现在被MSL一个闭源旗舰整得有点尴尬。说白了,Llama做了那么久没看到正向回报,Meta可能也想清楚了,想赚钱就别死磕开源。这家公司的AI能力不容低估,只是它的开源叙事这次破功了。短期对个人用户没什么影响,meta.ai在国内也用不上。
6. Mistral AI --- Mistral Medium 系列
最新版本:Mistral Medium 3.5(2026年4月30日),开源状态:开源(修改版MIT协议)
核心定位:Medium 3.5是128B密集模型,256K上下文,SWE-Bench Verified 77.6%,4张GPU就能跑起来。Le Chat全线切到了Medium 3.5,原先的Magistral和Devstral 2退出默认配置。同时Mistral Workflows进入公开预览,主打生产级AI编排(包括人工审批节点)。公司层面ARR已经做到4亿美元,估值138亿,3月刚完成8.3亿融资。
个人评价:上次说Mistral"综合智力水平与顶级闭源模型差距明显",这个月得部分认账了------Medium 3.5是真活儿,SWE-Bench接近Sonnet 4.6的水平,而且能本地部署还能改,对一些不能上云的企业是真正的解决方案。但本质上Mistral的定位没变,依然是给欧洲合规市场做的,不是给个人用户做的------所以推荐顺位上没什么变化,看到Medium 3.5新闻别忽略它就是了,对欧合规企业可以认真看一看。
7. Arcee AI --- Trinity 系列(新增)
最新版本:Trinity-Large-Thinking(2026年4月1日),开源状态:开源(Apache 2.0)
核心定位:4月最让我意外的一家------美国26人小团队Arcee AI开源了Trinity-Large-Thinking,398B MoE每token激活约13B,专为Agent长程推理设计,Apache 2.0完全可商用自部署。PinchBench上排到第2,仅次于Opus 4.6。OpenRouter上线两个月内就服务了3.37万亿token,跻身美国调用量最高的开源模型。定价上输出$0.90 per M tokens,比Opus 4.6便宜96%。
个人评价:这家公司今年才让我注意到,给我感觉就是"美版幻方"------一个小团队闷头做事,做出来的东西能上桌。把它放进来主要是想说,开源这条路上不止有Llama和DeepSeek,美国小团队也能搞,而且Apache 2.0这种"真开源"协议比Llama那种"开放权重但有商业限制"要诚意得多。性价比是真的高,做Agent长程任务想找便宜替代Opus的,可以试试。短期我打算自己接进去跑两个工作流看看实际表现,国内厂商也该提防起来------你们对手不止有Anthropic和OpenAI,开源这边变量越来越多。
国内模型
8. 深度求索 --- DeepSeek 系列
最新版本:DeepSeek-V4 Preview(2026年4月24日),含V4-Pro(1.6T总参/49B激活)和V4-Flash(284B/13B激活),开源状态:开源
核心定位:V4直接把V3.x对话线和R1推理线合并成统一架构,通过"思考/非思考模式"切换。两个版本都原生支持1M上下文,旧接口名(deepseek-chat / deepseek-reasoner)2026年7月24日下线。API定价上Flash输出2元/M token,Pro输出24元/M token,依然是开源生态里最便宜的高性能选手。最有意思的是这次V4优先适配了华为昇腾950PR,没有给英伟达提前权限。
个人评价:上次说"业内尊敬幻方",这个月得加一句"真硬气"。优先国产昇腾这个动作意义比模型本身还大,意味着幻方-DeepSeek-华为这条链路是真的能跑起来的。模型本身也好,统一架构、双模式切换、1M上下文,开源界几乎一夜之间被V4拉到了新高度。Claude Code里我之前试DeepSeek效果一般,这次V4出来之后我打算再试一次,能给Coding Plan省钱我立马切。但有个事得提醒:V4作为Preview版,工具调用稳定性据社区反馈还有波动,生产用建议再等等。
9. 阿里通义 --- Qwen 系列
最新版本:Qwen3.6-Plus(2026年4月2日),同月开源Qwen3.6-27B(4月22日)、Qwen3.6-Flash(35B MoE)、Qwen3.5-Omni(全模态)、Wan2.7-Image(文生图),开源状态:Plus及以下开源(Apache 2.0),Max闭源
核心定位:Qwen3.6-Plus主打1M上下文 + Agentic Coding,SWE-bench表现较上代提升2-3倍。同月还开源了Qwen3.6-27B稠密多模态、Qwen3.6-Flash稀疏MoE,再加上Omni全模态和Wan2.7文生图------一口气把四条产品线全更新了,钉钉的"悟空"企业平台和Qoder也同步接入。
个人评价:上次说阿里"内部山头化",这个月看更明显了------四条产品线同月并发,没有一个统一叙事,更像各团队各赶各的KPI。当然这种"广撒网"在阿里这种体量也是合理的,能赚到token就行。Qwen3.6-Plus本身能力没问题,开源拿来跑也行,但我用它的意愿依然不强,主要是对阿里的产品稳定性和长期承诺没信心。Qwen3.5-Omni这种全模态产品反而更让我感兴趣一点,因为多模态这块阿里历史积累还可以。林俊旸离职这事4月暂时没看到后续动态,但管理层的连环波动早晚会反映在产品节奏上,先观察。
10. 月之暗面 --- Kimi 系列
最新版本:Kimi K2.6(2026年4月21日),开源状态:开源(有商业限制)
核心定位:K2.6最硬核的一点是"单次连续13小时不中断 / 4000+行代码"的长程编码能力,Agent Swarm子代理上限从K2.5的100直接拉到300,Kimi Code Bench官方称较K2.5提升约20%,Factory.ai内测显示15%左右。融资上美团龙珠领投的20亿美元新一轮投后估值突破200亿美元,国内大模型创业公司里现在估值最高的一档。
个人评价:上次说Kimi是"国内最优先考虑",这个月还是这个判断,而且更确定了。13小时不中断这种能力别家短期内追不上,对真正的工程化Agent场景是不可替代的。20亿融资也意味着Kimi短期内不缺算力。唯一的小事故是K2.6上线当天访问量爆了,4月22日给所有用户重置额度做补偿,这种处理方式我觉得是加分项------出问题不藏着,直接补,比那些限流不发公告的厂商体面多了。继续推荐长期订阅。
11. 稀宇 MiniMax --- M / Music 系列
最新版本:M2.7(4月12日正式开源),MMX-CLI(4月9日发布),Music 2.6(4月底发布),开源状态:M2.7开源(部分公开)
核心定位:4月MiniMax主要做了三件事------M2.7从闭源转向开源、推出MMX-CLI(面向Agent场景的命令行工具)、发Music 2.6(首包延迟压缩到20秒内)。M3还在计划中,机构预测5-6月发布,可能带动提价。
个人评价:上次说MiniMax有点"拼多多的意思",这个月看更印证了------M2.7开源是补齐生态护城河,MMX-CLI是抢Agent场景的标准化入口,Music 2.6是把音乐生成的领先优势再夯实一次。我的Coding Plan用下来还是那个评价:短对话很能打,上下文一长就有点吃力。如果5-6月M3真出来而且带原生多模态,MiniMax有机会再上一个台阶。短期我还会继续用,主要因为价格摆在那里。等M3发布前如果你刚好要订阅,可以先订当前的Plan,到时候看M3情况再决定要不要升档。
12. 智谱 --- GLM 系列
最新版本:GLM-5.1(2026年4月8日),同月发布GLM-5V-Turbo(多模态编程)和GLM-4-Flash-250414(免费版),开源状态:部分开源(MIT协议)
核心定位:GLM-5.1验证了开源模型8小时连续工程任务的能力,SWE-bench 45.3,距Opus 4.6(47.9)只差2.6分,相比上代GLM-5(35.4)提升约28%。但4月最大的新闻其实不是模型本身------智谱逆势提价10%,编码定价追平Anthropic,发布当天港股大涨18%,社区炸了。GLM Coding Plan的老套餐(无周限额版)4月30日停止自动续订。
个人评价:上次说GLM"距离证明自己还有很长一段路",5.1分数上来了,必须给五五开。但提价10%这个操作非常微妙------它在告诉市场"我有底气定高价",资本市场买账(涨18%),但开发者社区其实很多人愤怒。从商业逻辑看智谱这一步是合理的,作为上市公司必须证明能赚钱;但从用户体验看,超发Coding Plan的旧账还没还完,又提价,难免被骂。我个人不会切过去,原因不是价格(毕竟Claude更贵我也用),而是稳定性历史包袱还在。如果你是从0开始选,可以试试,GLM-5.1的编程能力是真的回来了。
13. 字节跳动 --- Doubao / Seed 系列
最新版本:Doubao-Seed-2.0系列(2026年2月14日,4月无新版本),开源状态:闭源
核心定位:4月字节难得地安静了一整月,没有新版本,唯一的硬数据是日均token使用量突破120万亿。紧邻4月的5月初有动作------5月4日豆包首次推出付费订阅(68/200/500元三档),5月6日发布Doubao-Seed-2.0-lite升级版。
个人评价:上次说"和Seed对话有种对牛弹琴的感觉",这个月字节安静得反常。一般这种安静背后要么是在憋大招,要么是内部在吵架。120万亿token日均说明C端入口(豆包App、剪映、抖音助手)流量都还在涨,但模型本身没有更新------所以5月推付费订阅的动作我觉得是个信号:开始想从C端用户手里收钱了。从这个动作看,字节短期内仍然是产品矩阵和分发驱动,模型本身的优先级可能没那么高。生图依然好用,对话依然不建议。
14. 阶跃星辰 --- Step 系列
最新版本:Step 3.5 Flash 2603(2026年4月2日),开源状态:开源(Apache 2.0)
核心定位:Step 3.5 Flash 2603是上一版的优化版,新增low think mode,对Coding/Agent框架做了专项优化,token消耗进一步降低。同月还发布了Contextual TTS语音模型,支持3秒零样本音色复刻。公司层面动作更大------注册资本从2394万扩到5626万,融资轮次推进到Pre-IPO,目标6月底前赴港递交招股书,估值约100亿美元,还和千里科技战略合作推智驾基座模型。
个人评价:上次说Step在OpenClaw上"调用量第一",这个月看Step确实把开发者势能转成了资本势能------Pre-IPO + 港股递表 + 与车企合作,节奏非常明显。模型本身2603版的优化是渐进式的,没有惊喜也没有翻车。我个人对它的看法没变------开源免费用着舒服,作为短期补充选择是OK的,但如果你要做长期生产环境,Step依然要再观察一两个版本周期。能不能从"Agent高效推理引擎"做到"通用旗舰"是它接下来需要证明的事。
15. 小米 --- MiMo 系列(新增)
最新版本:MiMo-V2.5(310B总参/15B激活,原生全模态)+ MiMo-V2.5-Pro(1.02T/42B,Agent旗舰),2026年4月22日公测、4月28日开源,开源状态:开源(MIT协议)
核心定位:小米的大模型品牌叫MiMo,负责人是前DeepSeek核心成员罗福莉。V2.5系列两个月就把上一代V2迭代了,整体定位"造手机的杀进开源大模型牌桌"。MIT协议商用授权,首日完成阿里平头哥、昆仑芯、燧原等国产芯片深度适配,上下文最高100万token。4月3日雷军微博宣布MiMo调用量破1万亿token;4月28日启动"Orbit百万亿Token创造者激励计划",30天内发放100T免费token,API定价约为国际竞品的1/5。MiMo-V2.5-Pro登顶Artificial Analysis全球开源榜,小米成为首个登顶该榜的手机厂商。最戏剧的一个案例是有人让Pro版连续跑4.3小时、672次工具调用,跑出了一个完整的SysY编译器,这种长程稳定性确实超出预期。
个人评价:第一次写进我这个名单。看小米这一年的节奏------造车成了,造手机一直行,现在又把大模型整上来了,三条线最终都要回到"人车家全生态"这个叙事里去。MiMo作为闭环中的那个"大脑",其实是雷军这盘棋里很关键的一环。罗福莉这种核心人才能挖得过来,又能给到合适的位置和资源,说明小米这次是认真在做的。MIT开源+国产芯片适配+百万亿免费token,这一套打法非常激进,明显是在抢开发者心智。我打算这个月就用Orbit激励计划薅一波羊毛,先把它接进牛牛(OpenClaw)里跑一段时间看实际表现。如果V2.5的长程稳定性真有4.3小时编译器那个水准,小米这一步棋还能再走很远。
写在最后
所以如果让我推荐,基于长期考虑,4月这一版的判断是:
- 如果你能解决网络和订阅问题,也能接受一定的账号风险,那么ChatGPT和Claude依然是我心中的第一梯队选择,Opus 4.7尤其值得切。
- 国际开源这边,4月新增了一个值得认真试的选项------Arcee AI的Trinity-Large-Thinking,给Agent长程任务做了便宜替代Opus的可能。
- 如果你不能解决网络问题,那么在国内平台范围内,我依然推荐Kimi和MiniMax作为长期主力,Kimi K2.6的13小时长程能力是个真正的差异化。
- DeepSeek V4 Preview和GLM-5.1这个月在编程能力上确实有突破,编程主力可以考虑切;但V4工具调用稳定性还没完全稳,GLM提价后心智账要自己算清楚。
- 小米MiMo是这个月最值得短期蹭一波的------百万亿免费token的Orbit激励计划摆在那里,不薅白不薅。
4月节奏快得离谱,这篇博客我写了一半还有新消息出来,所以这里也及时更新上了。后续博主会继续更新个人调研和思考,下个月接着写,欢迎关注。