Claude 断供中国之际,Kimi-K2-0905 低调上线:时势造英雄

继 7 月开源万亿参数模型 Kimi K2 后,月之暗面(Moonshot)于 9 月 5 日又正式抛出了其最新版本 Kimi-K2-0905。根据官方提供的信息来看,作为 K2 的最新版本,该模型在编程能力上进行了重大升级,并将上下文长度扩展至 256K,远超之前版本的 128K 支持能力。

本次更新的 0905 版本具有以下几个亮点:

  • Agentic Coding 能力提升:在公开基准测试和真实的编程任务中均展现出更好的性能。

  • 前端编程体验升级。尤以前端开发与工具调用功能为主,生成的网页和图表视觉效果更加美观。

  • 上下文扩展至 256K,能力翻倍,复杂长线任务提供更好的支持。

  • 提供高速版 API:支持高达 60-100 Token/s 的输出速度。

  • 更流畅的兼容性。优化了与 Claude Code,Roo Code 等多种智能体框架的集成兼容性。不再有恼人的 cc + k2 vibes,简化 Agentic 工具的使用和编辑文件过程。

在侧重考察真实软件工程任务的 SWE-bench Verified 等基准测试中,Kimi-K2-0905 的跨语言编程能力较之前版本大幅提升并超越了业界领先的 Claude Sonnet 4,标志着其在解决真实世界复杂工程任务、有效运用长上下文窗口、驱动智能体工作流以及验证独特技术路线方面,展现出了接近实用级工程师助手的强大综合能力。

而在 9 月 5 日,Claude 母公司 Anthropic 突发公告,将停止向中国控股公司提供 AI 服务,此项新政策也适用于俄罗斯、伊朗和朝鲜等美国的"敌对国家",为美企首次出台类似限制。

这项基于地缘政治考量的服务限制,对于此前深度依赖或正在评估 Claude 服务的中国企业与开发者社群而言,这一突变既是一次被动的供应链中断,更是一个战略转折点。它以一种近乎强制的方式,促使市场参与者重新审视对海外单一技术路径的依赖风险,并加速将目光转向国内自研的 AI 大模型或其他更为稳定、可靠的国际替代方案。对于 Kimi-K2-0905 而言,上线时间可谓是"恰逢其时"。

302.AI 今日已第一时间接入 Kimi-K2-0905,支持聊天机器人使用和 API 在线调用。本期内容将围绕 Kimi-K2-0905,与同领域具备代表性的 Claude Opus 4.1,GPT-5 以及 Gemini 2.5 Pro 展开实测对比,方便用户快速了解模型性能。


I. 实测模型基本信息


Ⅱ. 实测案例

实测 1:逻辑/数学推理

提示词:将4个不同的数字排在一起,可以组成24个不同的四位数。将这 24个四位数按从小到大的顺序排列,第二个是5的倍数;按从大到小的顺序排列,第二个是不能被4整除的偶数;按从小到大排列的第五个与第二十个的差在3000 到4000之间。这24个四位数中最大的那个数是多少?

答案:7543

kimi-k2-0905 :回答正确

claude-opus-4-1 :回答正确

gpt-5 :回答正确

gemini-2.5-pro :回答正确

实测 2:前端编程-网页制作

提示词:

请你作为一名资深全栈工程师,使用 HTML, CSS 和 JavaScript 为一个名为"Soundscape"(声境)的独立音乐播客创建一个完整、美观、功能齐全的单页应用(SPA)风格网站。

核心页面结构与功能要求:

  1. 导航栏 (Navbar):

    1. 固定在顶部,包含Logo(用文字"Soundscape"代替)、导航链接(首页、节目、关于、联系)和一个搜索图标。

    2. 当页面滚动时,导航栏应具有背景色变化的效果。

  2. 英雄区 (Hero Section):

    1. 全屏高度,使用一个具有氛围感的深色背景图(在代码中用CSS颜色代替)。

    2. 居中显示一句标语,例如:"Discover Your Sonic Journey"(发现你的声音之旅)。

    3. 包含一个显眼的"开始聆听"按钮。

  3. 最新剧集区 (Latest Episodes):

    1. 展示3个最新的播客剧集卡片。

    2. 每个卡片应包含:剧集标题、发布日期、简短描述和播放时长。

  4. 固定底部播放器 (Fixed Audio Player):

    1. 固定在页面底部,始终可见。

    2. 包含基本控制:播放/暂停、下一首、上一首、进度条、当前时间/总时长、音量控制。

  5. 关于我们区 (About Section)

    1. 简要介绍"Soundscape"播客的理念和主持人。
  6. 页脚 (Footer):

    1. 包含社交媒体图标链接(仅图标)、版权信息和一个回到顶部的按钮。

样式与交互要求:

  • 设计风格: 采用现代、简约的"暗黑模式"设计,主色调为深灰色(#121212),辅色为亮青色(#1db954)用于按钮和焦点状态。

  • 响应式布局: 必须使用 Flexbox 或 CSS Grid 实现完全响应式设计,在手机、平板和桌面设备上均有良好的显示和操作体验。

  • 交互效果:

    • 所有按钮和链接应有悬停(:hover)和点击反馈。

    • 页面滚动时,建议实现元素的淡入效果。

技术栈与交付要求

  • 使用纯原生技术(HTML、CSS、Vanilla JavaScript)实现,不允许使用任何外部库或框架(如jQuery, React, Bootstrap)。

  • JavaScript 代码必须模块化,组织良好。

  • 最终请提供一个完整的、可直接复制粘贴到.html文件中运行的代码。请在代码中为占位图片和音频链接添加清晰注释。

kimi-k2-0905:实现度较高。功能元素完整,UI工整美观,交互体验流畅。唯一不足在于播放进度条不可拖动。

claude-opus-4-1:基本实现。界面美观,组件齐全。但交互性能较弱,点击相应按钮基本不会触发响应(如点击"播放",下方播放器不会显示对应剧集名称);部分UI细节(如播放图标)对齐度一般。

gpt-5:部分元素缺失。板块分布合理,UI美观,交互完整。但出现了非必要元素缺失("联系"板块社媒渠道不完整、"返回顶部"按钮缺失)

gemini-2.5-pro:实现度较高。功能元素完整,交互响应正常,界面UI还有优化空间。

实测 3:前端编程-小游戏

提示词:扮演一位资深前端开发工程师。请创建一个完整、可直接运行的"接水果"小游戏网页。

游戏规则:

  • 玩家控制屏幕底部的一个篮子,用鼠标左右移动。

  • 水果从屏幕顶部随机位置落下。

  • 玩家需要用篮子接住水果,每接住一个得10分。

  • 如果水果落地,游戏不结束,但会错过得分。

技术要求:

  1. 使用纯HTML、CSS和JavaScript(Vanilla JS)实现,不需要任何外部库。

  2. HTML结构清晰,包含:游戏画布(Canvas)、当前分数显示、最高分记录。

  3. CSS样式美观,篮子和小球(水果)要有区别色,背景简洁。

功能需求:

  • 具有开始/重新开始按钮。

  • 实时显示当前分数和最高分。

  • 游戏难度随分数增加而逐渐提高(例如水果下落速度加快)。

风格参考:

  • 采用简洁明亮的像素风或扁平设计风格。

请输出完整的HTML代码,包含内联的CSS和JavaScript。

kimi-k2-0905:具备基本功能,但是后期水果掉落数量不合理,且出现了掉落延迟bug。

claude-opus-4-1:基本实现。功能元素完整,但底部篮子灵敏度过高,弱化了控制精准度。此外,UI仍需优化。

gpt-5:实现度较高。功能元素完整,交互体验流畅,游戏难度过渡流畅。自主增加了"miss"数量显示。

gemini-2.5-pro:实现度一般。UI元素单一,水果元素在掉落过程中由透明色变为棕色,影响了游戏属性。

实测 4:前端编程-生成操作系统

提示词:用HTML生成一个移动端操作系统,包含主要常见移动设备的功能性APP,UI采用透明玻璃风格。

kimi-k2-0905:实现度较佳。UI极简,配色统一感强,有透明玻璃效果;包含移动端OS常见功能应用共8款,交互性尚可。

claude-opus-4-1:基本实现。共展示20款功能/应用,少部分功能可实现基础点击交互(电话、信息、相机、计算器),其余做空白显示,有界面仍出现乱码。应用背景并未做玻璃透明特效。

gpt-5实现度最佳。交互流畅,UI美观,共展示12款功能/应用。基础功能较为完善,按键基本可用(包括拨号、计算器、计时器、天气切换、添加文件等功能)还自主设定了滑动解锁、个性化外观更改等额外选项。

gemini-2.5-pro:未实现。元素功能较少,可实现基础点击交互,但UI/UX表现力过差(如图标未显示,白色字体与背景相混合,排版无逻辑等)。


III. Kimi-K2-0905 实测结论

1. 实测结果整理:

评测标准:

  • ★(不可用):代码完全无法执行或存在错误导致功能缺失

  • ★★(明显缺陷):基础功能可运行但存在明显 bug,或核心功能未实现

  • ★★★(基本实现):主要功能可用,但欠缺部分功能,或 UI/UX 需优化

  • ★★★★(完整实现):功能完整实现,代码规范,交互流畅,达到预期效果

  • ★★★★★(卓越实现):功能表现超出预期,包含创新性实现或优化

2. 实测结论

Kimi-K2-0905:从有力挑战者到并肩领跑者

月之暗面对于 Kimi-K2-0905 的发布显得相当低调,但其性能的跃迁却足以点燃用户热情。通过本次涵盖逻辑推理、网页制作、游戏开发及操作系统生成等多个维度的测试,我们得以一窥其相较前序版本的显著进步。

在对前代 Kimi K2 的测试中我们给与了这样的评价:"当面对顶尖选手时,Kimi K2 的实力边界也逐渐显现。 它在某些特定任务,如天气应用和可定制仪表盘组件的生成上,已能比 claude-3-7-sonnet 略胜一筹。但与目前业界公认的旗舰模型 claude-sonnet-4(当然还有更强的 Opus)相比,Kimi K2 在输出的完整性、代码的丰富度以及复杂逻辑处理上仍存在一定差距,后者在这些方面展现出更成熟的掌控力。"

然而,时移势易。本次测试中,Kimi 已然褪去青涩,展现出全面成熟的工程能力。

在新一轮的正面交锋中,我们让 Kimi-K2-0905 直接对垒业界标杆 claude-opus-4-1 与 gpt-5,在前端编程领域的综合实力已达到业界领先水平,与 claude-opus-4-1 等旗舰模型处于同一竞争力队列。

在网页制作这块,Kimi-K2-0905 和 GPT-5, Claude-Opus-4-1 都能快速理解视觉结构并生成模块化、可部署的 HTML & CSS 代码,响应式布局也基本到位。

生成操作系统级应用这个测试比较吃模型对复杂结构的理解能力。Kimi-K2-0905 给出的文件结构、初始指令搭建、UI设计也具备较高完成度。

如果说前代的 Kimi K2 是在奋力追赶,那么全新的 Kimi-K2-0905 则已成功跻身第一梯队:进一步补全短板,更在部分关键项目上实现了反超。曾经与旗舰模型之间的差距,在本次测试中已被显著弥合,国产大模型,着实未来可期。


相关推荐
却道天凉_好个秋5 小时前
计算机视觉(九):图像轮廓
人工智能·opencv·计算机视觉·图像轮廓
爱读源码的大都督5 小时前
Java已死?别慌,看我如何用Java手写一个Qwen Code Agent,拯救Java
java·人工智能·后端
机器之心5 小时前
国内外AI大厂重押,初创梭哈,谁能凭「记忆」成为下一个「DeepSeek」?
人工智能·openai
时序之心5 小时前
覆盖Transformer、GAN:掩码重建正在重塑时间序列领域!
人工智能·深度学习·生成对抗网络·transformer·时间序列
机器之心5 小时前
OpenAI罕见发论文:我们找到了AI幻觉的罪魁祸首
人工智能·openai
aneasystone本尊5 小时前
学习 GraphRAG 四大搜索策略
人工智能
用户4099322502126 小时前
如何在 FastAPI 中优雅地模拟多模块集成测试?
后端·ai编程·trae
小胖墩有点瘦6 小时前
【基于深度学习的中草药识别系统】
人工智能·python·深度学习·课程设计·计算机毕业设计·中草药识别
六月的可乐6 小时前
AI助理前端UI组件-悬浮球组件
前端·人工智能