2026年4月,我调研了15款主流大模型

本文聚焦各模型的最新进展，核心特点和劣势，以及一些博主个人的看法，初衷为帮助我个人整理思路。

本文原始素材由博主通过多种渠道自行收集并整理，客观信息摘自公开渠道，个人评价会带有主观色彩。

写在前面

距离上一篇博客刚好一个月，本以为可以歇一阵子，结果4月这一个月密集到我都觉得自己写慢了：OpenAI、Anthropic、Google、xAI、Meta、Mistral六家国际厂商挨个发了新版本或新产品，国内这边DeepSeek V4、Qwen3.6、Kimi K2.6、GLM-5.1、MiniMax M2.7开源也全都凑在4月。再加上美国小团队Arcee AI开源Trinity-Large-Thinking冲上OpenRouter的事，还有小米MiMo V2.5系列开源后直接登顶Artificial Analysis全球开源榜，我觉得有必要把这两位也拉进来，所以这一版直接扩到了15款。下面正文里只看4月相关动态，呼应一下上一篇的判断，老观点对的继续说，错的更正。

国际模型

1. OpenAI --- GPT 系列

最新版本：GPT-5.5（2026年4月23日），开源状态：闭源

核心定位：从"通用旗舰"正式转向"代理型旗舰"。距离3月底的5.4只有6周，5.5在多步骤任务（编程、科研、计算机操作）上做了专门优化，延迟与5.4基本一致，但同等编程任务的token消耗明显降低。已在Plus/Pro/Business/Enterprise全线推开，API同步开放，Pro版另有独立调用入口。定价上，标准版输入/输出 $5/$ 30 per M tokens，Pro版 $30/$ 180 per M tokens，没什么特别的惊喜，但也没涨价。

个人评价：上次说"够用"，这次还是这两个字，但补一句"快得离谱"。6周一个版本号的迭代节奏其实有点反人类，对开发者来说每次都要重新评估prompt和工具兼容性。OpenAI这种"我每周给你一点惊喜"的打法，更像在维持商政军市场对ChatGPT 1号位的印象，让客户没有理由换别家。对个人用户，5.4和5.5的差别其实没那么大，但你要做长程Agent任务，5.5是值得切的。Polymarket那边赌5.6不到6月就发，到时再来一次。

2. Google DeepMind --- Gemini / Gemma 系列

最新版本：Gemini 3.1 Pro（含4月新增Flash Live语音版、Flash TTS Preview）、Gemma 4开源（2026年4月2日，26B/31B），开源状态：Gemini闭源、Gemma开源

核心定位：4月Google一边继续推闭源Gemini 3.1家族，一边把开源主力升到Gemma 4，又在Cloud Next '26上喊出"代理纪元"的口号，顺便推了Gemini Enterprise Agent Platform和第八代AI芯片。Gemma 4本身规模并不大，定位是企业本地化和小型Agent；Gemini 3.1的几个Live/TTS变体则把语音赛道补齐。

个人评价：上次说Google走的是"生态训练模型，模型反哺生态"的路子，这个月看得更清楚了------自己造芯片、自己排平台、自己定生态、自己出开源底座。第八代芯片这块其实让我对Google的长期路线更有信心，毕竟其它家说要降算力成本都得求英伟达，Google可以自己内循环。短期对个人用户没什么直接影响，Gemini 3.1 Pro用着没毛病，依然限流偶尔出现。Gemma 4更多是给企业玩的，自己折腾的话可以试试，但消费侧体验没什么变化。

3. Anthropic --- Claude 系列

最新版本：Claude Opus 4.7（2026年4月16日），另有限制性预览Claude Mythos（4月7日宣布），开源状态：闭源

核心定位：Opus 4.7主要在三个维度上对4.6做了升级------多模态分辨率提升到3.75MP，代理编程稳定性进一步加强，工具调用容错率改善，依然是企业级长程Agent的首选。Bedrock、Vertex、Microsoft Foundry全渠道铺开。Mythos是个有意思的东西------能力远超Opus 4.7，但只对11家机构开放，Mozilla用它在Firefox里找并修复了271个安全漏洞。另外4月17日还顺手上了一个Claude Design，做原型图/PPT/单页文档生成，可导出到Canva。

个人评价：上次说"伟大无需多言"，这次还是这话。但Mythos这套限量分发的玩法我得吐槽两句------一边强调"超强模型有滥用风险所以不公开"，一边又拿出来给合作方刷新闻，本质上是把"安全话术"包装成了营销策略。当然如果Mozilla这个271个漏洞是真的，那确实是个有力的案例。Claude Design这个产品我也试了试，定位很清楚就是给非技术用户做轻量演示物料，跟Canva的整合是亮点。对开发者来说，4.7在Claude Code里继续好用，建议无脑切。账号风控这块，4月一点没放松，依然要小心。

4. xAI --- Grok 系列

最新版本：Grok 4.3 Beta（2026年4月17日静默上线），开源状态：闭源

核心定位：4.3在4.1基础上加了原生视频输入、文档/表格/PPT直接生成，以及与Grok Computer的更深集成，依然是2M token上下文。语音方向同步推出了独立STT/TTS API，4月30日最强语音代理也开放了API调用。

个人评价：上次说老马吹得好听，这次"4.3来了，5还远"。Grok 4.3只有SuperGrok Heavy用户能用，每月$300，门槛真不便宜，关键还没解决跨会话记忆这种基础体验问题，X上已经骂上天了。语音代理这块倒是有点意思，做实时对话场景可以关注一下API。但作为日常生产力，Grok依然不够稳，老马年中要追上竞争对手的flag还没倒，但5月已经过半了，Grok 5依然没影，再观望。

5. Meta --- Llama / Muse 系列

最新版本：Llama 4 Scout/Maverick（2025年4月，老版本），Muse Spark（2026年4月8日，首款闭源），开源状态：Llama开源、Muse闭源

核心定位：4月Meta放了个大新闻------Meta Superintelligence Labs（MSL，由前Scale AI CEO Alexandr Wang领衔）发布了首款闭源专有模型 Muse Spark，仅在meta.ai上提供，不开源权重，主打"思维压缩"技术，推理效率比Llama 4 Maverick高一个数量级。与此同时，Llama 4 Behemoth还在训练，没影；Llama生态累计下载量倒是冲到了12亿次。

个人评价：上次说"等Avocado发布了再看看"，结果Avocado没等到，先等来个闭源的Muse Spark。Meta这一步在开源社区里其实挺有争议的------你之前靠Llama树立的"开源开放"形象，现在被MSL一个闭源旗舰整得有点尴尬。说白了，Llama做了那么久没看到正向回报，Meta可能也想清楚了，想赚钱就别死磕开源。这家公司的AI能力不容低估，只是它的开源叙事这次破功了。短期对个人用户没什么影响，meta.ai在国内也用不上。

6. Mistral AI --- Mistral Medium 系列

最新版本：Mistral Medium 3.5（2026年4月30日），开源状态：开源（修改版MIT协议）

核心定位：Medium 3.5是128B密集模型，256K上下文，SWE-Bench Verified 77.6%，4张GPU就能跑起来。Le Chat全线切到了Medium 3.5，原先的Magistral和Devstral 2退出默认配置。同时Mistral Workflows进入公开预览，主打生产级AI编排（包括人工审批节点）。公司层面ARR已经做到4亿美元，估值138亿，3月刚完成8.3亿融资。

个人评价：上次说Mistral"综合智力水平与顶级闭源模型差距明显"，这个月得部分认账了------Medium 3.5是真活儿，SWE-Bench接近Sonnet 4.6的水平，而且能本地部署还能改，对一些不能上云的企业是真正的解决方案。但本质上Mistral的定位没变，依然是给欧洲合规市场做的，不是给个人用户做的------所以推荐顺位上没什么变化，看到Medium 3.5新闻别忽略它就是了，对欧合规企业可以认真看一看。

7. Arcee AI --- Trinity 系列（新增）

最新版本：Trinity-Large-Thinking（2026年4月1日），开源状态：开源（Apache 2.0）

核心定位：4月最让我意外的一家------美国26人小团队Arcee AI开源了Trinity-Large-Thinking，398B MoE每token激活约13B，专为Agent长程推理设计，Apache 2.0完全可商用自部署。PinchBench上排到第2，仅次于Opus 4.6。OpenRouter上线两个月内就服务了3.37万亿token，跻身美国调用量最高的开源模型。定价上输出$0.90 per M tokens，比Opus 4.6便宜96%。

个人评价：这家公司今年才让我注意到，给我感觉就是"美版幻方"------一个小团队闷头做事，做出来的东西能上桌。把它放进来主要是想说，开源这条路上不止有Llama和DeepSeek，美国小团队也能搞，而且Apache 2.0这种"真开源"协议比Llama那种"开放权重但有商业限制"要诚意得多。性价比是真的高，做Agent长程任务想找便宜替代Opus的，可以试试。短期我打算自己接进去跑两个工作流看看实际表现，国内厂商也该提防起来------你们对手不止有Anthropic和OpenAI，开源这边变量越来越多。

国内模型

8. 深度求索 --- DeepSeek 系列

最新版本：DeepSeek-V4 Preview（2026年4月24日），含V4-Pro（1.6T总参/49B激活）和V4-Flash（284B/13B激活），开源状态：开源

核心定位：V4直接把V3.x对话线和R1推理线合并成统一架构，通过"思考/非思考模式"切换。两个版本都原生支持1M上下文，旧接口名（deepseek-chat / deepseek-reasoner）2026年7月24日下线。API定价上Flash输出2元/M token，Pro输出24元/M token，依然是开源生态里最便宜的高性能选手。最有意思的是这次V4优先适配了华为昇腾950PR，没有给英伟达提前权限。

个人评价：上次说"业内尊敬幻方"，这个月得加一句"真硬气"。优先国产昇腾这个动作意义比模型本身还大，意味着幻方-DeepSeek-华为这条链路是真的能跑起来的。模型本身也好，统一架构、双模式切换、1M上下文，开源界几乎一夜之间被V4拉到了新高度。Claude Code里我之前试DeepSeek效果一般，这次V4出来之后我打算再试一次，能给Coding Plan省钱我立马切。但有个事得提醒：V4作为Preview版，工具调用稳定性据社区反馈还有波动，生产用建议再等等。

9. 阿里通义 --- Qwen 系列

最新版本：Qwen3.6-Plus（2026年4月2日），同月开源Qwen3.6-27B（4月22日）、Qwen3.6-Flash（35B MoE）、Qwen3.5-Omni（全模态）、Wan2.7-Image（文生图），开源状态：Plus及以下开源（Apache 2.0），Max闭源

核心定位：Qwen3.6-Plus主打1M上下文 + Agentic Coding，SWE-bench表现较上代提升2-3倍。同月还开源了Qwen3.6-27B稠密多模态、Qwen3.6-Flash稀疏MoE，再加上Omni全模态和Wan2.7文生图------一口气把四条产品线全更新了，钉钉的"悟空"企业平台和Qoder也同步接入。

个人评价：上次说阿里"内部山头化"，这个月看更明显了------四条产品线同月并发，没有一个统一叙事，更像各团队各赶各的KPI。当然这种"广撒网"在阿里这种体量也是合理的，能赚到token就行。Qwen3.6-Plus本身能力没问题，开源拿来跑也行，但我用它的意愿依然不强，主要是对阿里的产品稳定性和长期承诺没信心。Qwen3.5-Omni这种全模态产品反而更让我感兴趣一点，因为多模态这块阿里历史积累还可以。林俊旸离职这事4月暂时没看到后续动态，但管理层的连环波动早晚会反映在产品节奏上，先观察。

10. 月之暗面 --- Kimi 系列

最新版本：Kimi K2.6（2026年4月21日），开源状态：开源（有商业限制）

核心定位：K2.6最硬核的一点是"单次连续13小时不中断 / 4000+行代码"的长程编码能力，Agent Swarm子代理上限从K2.5的100直接拉到300，Kimi Code Bench官方称较K2.5提升约20%，Factory.ai内测显示15%左右。融资上美团龙珠领投的20亿美元新一轮投后估值突破200亿美元，国内大模型创业公司里现在估值最高的一档。

个人评价：上次说Kimi是"国内最优先考虑"，这个月还是这个判断，而且更确定了。13小时不中断这种能力别家短期内追不上，对真正的工程化Agent场景是不可替代的。20亿融资也意味着Kimi短期内不缺算力。唯一的小事故是K2.6上线当天访问量爆了，4月22日给所有用户重置额度做补偿，这种处理方式我觉得是加分项------出问题不藏着，直接补，比那些限流不发公告的厂商体面多了。继续推荐长期订阅。

11. 稀宇 MiniMax --- M / Music 系列

最新版本：M2.7（4月12日正式开源），MMX-CLI（4月9日发布），Music 2.6（4月底发布），开源状态：M2.7开源（部分公开）

核心定位：4月MiniMax主要做了三件事------M2.7从闭源转向开源、推出MMX-CLI（面向Agent场景的命令行工具）、发Music 2.6（首包延迟压缩到20秒内）。M3还在计划中，机构预测5-6月发布，可能带动提价。

个人评价：上次说MiniMax有点"拼多多的意思"，这个月看更印证了------M2.7开源是补齐生态护城河，MMX-CLI是抢Agent场景的标准化入口，Music 2.6是把音乐生成的领先优势再夯实一次。我的Coding Plan用下来还是那个评价：短对话很能打，上下文一长就有点吃力。如果5-6月M3真出来而且带原生多模态，MiniMax有机会再上一个台阶。短期我还会继续用，主要因为价格摆在那里。等M3发布前如果你刚好要订阅，可以先订当前的Plan，到时候看M3情况再决定要不要升档。

12. 智谱 --- GLM 系列

最新版本：GLM-5.1（2026年4月8日），同月发布GLM-5V-Turbo（多模态编程）和GLM-4-Flash-250414（免费版），开源状态：部分开源（MIT协议）

核心定位：GLM-5.1验证了开源模型8小时连续工程任务的能力，SWE-bench 45.3，距Opus 4.6（47.9）只差2.6分，相比上代GLM-5（35.4）提升约28%。但4月最大的新闻其实不是模型本身------智谱逆势提价10%，编码定价追平Anthropic，发布当天港股大涨18%，社区炸了。GLM Coding Plan的老套餐（无周限额版）4月30日停止自动续订。

个人评价：上次说GLM"距离证明自己还有很长一段路"，5.1分数上来了，必须给五五开。但提价10%这个操作非常微妙------它在告诉市场"我有底气定高价"，资本市场买账（涨18%），但开发者社区其实很多人愤怒。从商业逻辑看智谱这一步是合理的，作为上市公司必须证明能赚钱；但从用户体验看，超发Coding Plan的旧账还没还完，又提价，难免被骂。我个人不会切过去，原因不是价格（毕竟Claude更贵我也用），而是稳定性历史包袱还在。如果你是从0开始选，可以试试，GLM-5.1的编程能力是真的回来了。

13. 字节跳动 --- Doubao / Seed 系列

最新版本：Doubao-Seed-2.0系列（2026年2月14日，4月无新版本），开源状态：闭源

核心定位：4月字节难得地安静了一整月，没有新版本，唯一的硬数据是日均token使用量突破120万亿。紧邻4月的5月初有动作------5月4日豆包首次推出付费订阅（68/200/500元三档），5月6日发布Doubao-Seed-2.0-lite升级版。

个人评价：上次说"和Seed对话有种对牛弹琴的感觉"，这个月字节安静得反常。一般这种安静背后要么是在憋大招，要么是内部在吵架。120万亿token日均说明C端入口（豆包App、剪映、抖音助手）流量都还在涨，但模型本身没有更新------所以5月推付费订阅的动作我觉得是个信号：开始想从C端用户手里收钱了。从这个动作看，字节短期内仍然是产品矩阵和分发驱动，模型本身的优先级可能没那么高。生图依然好用，对话依然不建议。

14. 阶跃星辰 --- Step 系列

最新版本：Step 3.5 Flash 2603（2026年4月2日），开源状态：开源（Apache 2.0）

核心定位：Step 3.5 Flash 2603是上一版的优化版，新增low think mode，对Coding/Agent框架做了专项优化，token消耗进一步降低。同月还发布了Contextual TTS语音模型，支持3秒零样本音色复刻。公司层面动作更大------注册资本从2394万扩到5626万，融资轮次推进到Pre-IPO，目标6月底前赴港递交招股书，估值约100亿美元，还和千里科技战略合作推智驾基座模型。

个人评价：上次说Step在OpenClaw上"调用量第一"，这个月看Step确实把开发者势能转成了资本势能------Pre-IPO + 港股递表 + 与车企合作，节奏非常明显。模型本身2603版的优化是渐进式的，没有惊喜也没有翻车。我个人对它的看法没变------开源免费用着舒服，作为短期补充选择是OK的，但如果你要做长期生产环境，Step依然要再观察一两个版本周期。能不能从"Agent高效推理引擎"做到"通用旗舰"是它接下来需要证明的事。

15. 小米 --- MiMo 系列（新增）

最新版本：MiMo-V2.5（310B总参/15B激活，原生全模态）+ MiMo-V2.5-Pro（1.02T/42B，Agent旗舰），2026年4月22日公测、4月28日开源，开源状态：开源（MIT协议）

核心定位：小米的大模型品牌叫MiMo，负责人是前DeepSeek核心成员罗福莉。V2.5系列两个月就把上一代V2迭代了，整体定位"造手机的杀进开源大模型牌桌"。MIT协议商用授权，首日完成阿里平头哥、昆仑芯、燧原等国产芯片深度适配，上下文最高100万token。4月3日雷军微博宣布MiMo调用量破1万亿token；4月28日启动"Orbit百万亿Token创造者激励计划"，30天内发放100T免费token，API定价约为国际竞品的1/5。MiMo-V2.5-Pro登顶Artificial Analysis全球开源榜，小米成为首个登顶该榜的手机厂商。最戏剧的一个案例是有人让Pro版连续跑4.3小时、672次工具调用，跑出了一个完整的SysY编译器，这种长程稳定性确实超出预期。

个人评价：第一次写进我这个名单。看小米这一年的节奏------造车成了，造手机一直行，现在又把大模型整上来了，三条线最终都要回到"人车家全生态"这个叙事里去。MiMo作为闭环中的那个"大脑"，其实是雷军这盘棋里很关键的一环。罗福莉这种核心人才能挖得过来，又能给到合适的位置和资源，说明小米这次是认真在做的。MIT开源+国产芯片适配+百万亿免费token，这一套打法非常激进，明显是在抢开发者心智。我打算这个月就用Orbit激励计划薅一波羊毛，先把它接进牛牛（OpenClaw）里跑一段时间看实际表现。如果V2.5的长程稳定性真有4.3小时编译器那个水准，小米这一步棋还能再走很远。

写在最后

所以如果让我推荐，基于长期考虑，4月这一版的判断是：

如果你能解决网络和订阅问题，也能接受一定的账号风险，那么ChatGPT和Claude依然是我心中的第一梯队选择，Opus 4.7尤其值得切。
国际开源这边，4月新增了一个值得认真试的选项------Arcee AI的Trinity-Large-Thinking，给Agent长程任务做了便宜替代Opus的可能。
如果你不能解决网络问题，那么在国内平台范围内，我依然推荐Kimi和MiniMax作为长期主力，Kimi K2.6的13小时长程能力是个真正的差异化。
DeepSeek V4 Preview和GLM-5.1这个月在编程能力上确实有突破，编程主力可以考虑切；但V4工具调用稳定性还没完全稳，GLM提价后心智账要自己算清楚。
小米MiMo是这个月最值得短期蹭一波的------百万亿免费token的Orbit激励计划摆在那里，不薅白不薅。

4月节奏快得离谱，这篇博客我写了一半还有新消息出来，所以这里也及时更新上了。后续博主会继续更新个人调研和思考，下个月接着写，欢迎关注。