编程能力超越 Claude Opus 4?DeepSeek V3.1最新版本实测

DeepSeek 19 日晚在 Hugging Face 发布了其最新升级模型 DeepSeek-V3.1-Base。这次更新并没有任何预热宣传,甚至没有放上模型卡。唯一已知的信息是:上下文窗口从原有的64k扩展至128k,从网页、App、小程序都可体验这一模型。从上传的模型版本看,模型尺寸达 685B,支持 BF16、F8_E4M3、F32 等张量类型,平衡模型的计算精度和效率。

Hugging Face 的联合创始人 Clement Delangue 也发帖调侃,Deepseek V3.1 悄然发布后几小时之内就已登上模型趋势榜第四,这就是 8w 关注者的力量。而截止今日上午,排名已上升至第二。

那么,此次升级的 V3.1 版本模型性能表现有和提升?由于官方说明并未释出,相信大家都存有一样的疑惑。

话不多说,实测先行。302.AI 已第一时间接入 Deepseek-V3.1,支持聊天机器人使用和 API 在线调用。本篇实测将从多个维度入手,供大家参考该版本的实际性能表现。

I. 实测模型基本信息

Ⅱ. 实测案例

实测 1:逻辑推理-排序问题

提示词:有 8 个人,分别是 A、B、C、D 和另外 4 人。要将这 8 个人随机安排在教室的两排座位上,每排有 4 个座位,共 8 个座位。相邻的定义是:若两个人坐在同一排并且座位编号相邻,则这两个人相邻。现要求 A 与 B 必须相邻,且 C 与 D 不相邻,问在上述条件下共有多少种不同的排法?

答案:6528

deepseek-V3.1:回答错误。

gpt-5:回答正确。

qwen3-235b-a22b-thinking:回答正确。

claude-opus-4-1:回答正确。

实测 2:网页制作

提示词:为一个名为 "AURA SWIM" 的虚构女性泳装品牌,创建一个精美、逼真且完全交互的电商网站首页的完整代码(HTML、CSS 和 JavaScript)。整个页面的所有视觉元素都必须在一个单独的 元素内进行渲染。

目标用户与品牌美学:品牌 AURA SWIM 的目标用户是Z世代消费者(年龄在16-25岁之间)。网站的整体美学必须充满活力、能量充沛,并具有数字原生感,以反映核心的Z世代设计趋势。

  • 核心氛围: "多巴胺夏日"。风格需大胆、自信、有趣。

  • 色彩搭配: 运用动态、流动的渐变色。想象日落与海洋交汇的景象:鲜艳的粉色 (#FF6B6B)、橙色 (#FFA500)、深紫色 (#8338EC) 和电光蓝 (#00C6FF)。

  • 字体设计: 标题使用加粗的、圆润的无衬线字体(例如 'Poppins', 'Nunito', 或类似的 Google Font)。正文文本应保持清晰易读。

  • 布局与形状: 拥抱柔和的圆角("soft-UI"风格)和非对称布局。避免使用尖锐、死板的矩形。对背景元素使用模糊效果以创造深度感。

技术要求与页面结构(需在Canvas上渲染): 你必须以编程方式将每一个元素绘制到Canvas上。除了本身,标签内不应包含任何用于构建界面的标准HTML元素。

deepseek-V3.1 :整体最佳。页面完整度最高, UI/UX 美观高级,自主添加了商品和品牌的文字描述。

gpt-5:完整实现。布局合理,UI 美观,已达到一个完整网页首页的要求。自主添加了商品滚轴设计、搜索框和加入购物车的交互。

qwen3-235b-a22b-thinking:基本实现。UI/UX 相对较混乱。

claude-opus-4-1:基本实现。添加了品牌信息,组件布局还有提升空间。

实测 3:高考数学

答案:B

deepseek-V3.1:回答正确。

gpt-5:回答正确。

qwen3-235b-a22b-thinking:回答正确。

claude-opus-4-1:回答错误。

实测 4:小游戏制作

提示词:你是一位独立游戏开发者和创意技术专家,尤其擅长在浏览器中利用Canvas实现复古街机风格的物理效果和令人惊叹的视觉特效。你的任务是使用 HTML, CSS, 和 JavaScript,从零开始创建一个完整、可玩、单屏的赛博朋克风格弹珠机游戏。游戏的所有图形、动画和交互都必须在 一个 元素 内完成。

游戏名称与核心概念:游戏名称为 "CYBER-FLIP"。这是一款快节奏、以得分为导向的街机游戏,玩家的目标是在一个充满霓虹灯、数据流和都市危险的垂直游戏场中,尽可能地获得高分。

视觉美学与赛博朋克风格:你需要构建一个沉浸式的、霓虹闪烁的反乌托邦大都会景观作为弹珠台的背景和元素。

  • 核心氛围: "高科技,低生活"。整个弹珠台就是一个未来城市的垂直切片。背景是下着酸雨的深夜,远处有若隐若现的摩天大楼和飞行器。

  • 色彩方案: 使用高对比度的霓虹色调。主色调为 电光蓝 (#00FFFF)、品红 (#FF00FF)、剧毒绿 (#39FF14) 和 亮黄色 (#FFFF00)。这些亮色应与 深邃的、近乎黑色的背景(如 #1A1A2E) 形成鲜明对比。

  • 视觉元素 (将弹珠台元素赛博朋克化):

  • 弹珠 (Ball): 不是普通的银色小球,而是一个发光的 能量球,身后拖着粒子尾迹。

  • 挡板 (Flippers): 设计成带有霓虹边缘的 流畅镀铬金属臂。

  • 保险杠 (Bumpers): 设计成 脉冲式的数据节点,每次撞击都会发出环状光波。

  • 坡道 (Ramps): 设计成 半透明的数据流管道 或 磁悬浮轨道,弹珠进入时会有特殊音效和视觉效果。

  • 目标 (Targets): 设计成 闪烁故障的公司Logo 或需要击中的 "接入面板"。

  • 特效: 所有霓虹元素都要有 辉光/泛光 (Glow/Bloom) 效果。

  • 弹珠撞击时,产生 粒子爆发 效果。

  • 高分撞击或完成特定任务时,可以加入轻微的 屏幕震动 效果。

游戏机制与玩法:你需要实现一个经典且令人上瘾的弹珠游戏循环。

  • 游戏目标: 通过撞击目标、完成"数据入侵"任务来最大化你的分数。

  • 控制:左/右方向键 控制左右挡板。

deepseek-V3.1:未能实现。

gpt-5:界面初步实现,但 UX 存在 bug,无法触发完整游戏。

qwen3-235b-a22b-thinking:界面初步实现,但 UX 存在 bug,无法触发完整游戏。

claude-opus-4-1:完整实现。交互流畅,玩法还原提示词要求,碰撞触发效果炫酷。


III. DeepSeek V3.1 实测结论

1. 实测结果整理:

评测标准:

  • ★(不可用):代码完全无法执行或存在错误导致功能缺失
  • ★★(明显缺陷):基础功能可运行但存在明显 bug,或核心功能未实现
  • ★★★(基本实现):主要功能可用,但欠缺部分功能,或 UI/UX 需优化
  • ★★★★(完整实现):功能完整实现,代码规范,交互流畅,达到预期效果
  • ★★★★★(卓越实现):功能表现超出预期,包含创新性实现或优化

2. 实测结论

根据以上实测结果,DeepSeek V3.1 的实际性能呈现以下特点:

  1. 综合表现仍有短板。 DeepSeek V3.1 在主流任务中似乎延续了稳定实力。但在案例 1 的逻辑推理类任务和案例 4 的小游戏编程任务中却暴露出明显问题,说明其推理深度和稳定性较之前版本相比未体现出明显升级。
  2. 编程能力和响应速度有所提升。 DeepSeek V3.1 在网页制作案例的表现十分亮眼,面对复杂前端网页制作的任务,其生成能力、交互设计和内容完整度出乎意料达到或接近顶尖大模型水平,可见其在实际应用场景上理解用户需求的能力有所提升。在最新的 aider 测试中也指出,DeepSeek V3.1 取得了 71.6% 的成绩,比 Claude Opus 4 得分还多 1%,创下非推理模型的最佳记录。这一表现也显示了其在代码生成和编程辅助方面的实用价值。
  3. 成本优势明显。 从价格和上下文长度来看,DeepSeek V3.1 相较同级别大模型有显著优势。上下文窗口扩展至 128k,为大规模知识处理、长文档理解、批量内容生成等应用提供了更大空间,极大降低了使用门槛。随着 API 服务的完善,预计将在编程辅助和智能对话领域发挥更佳作用。

总体而言,V3.1 的反响虽褒贬不一,但却进一步拉高了市场对即将亮相的 R2 的期待,期望其能交出一份更亮眼的答卷。


相关推荐
智泊AI21 分钟前
手撕LLM | 从0开始讲解AI大模型底层技术原理
llm
大熊猫侯佩44 分钟前
拒绝羡慕 Cursor!Xcode 自己也能利用 AI 大模型让撸码如虎添翼【超详细配置】
macos·ai编程·xcode
聚客AI1 小时前
🧠深度解析模型压缩革命:减枝、量化、知识蒸馏
人工智能·深度学习·llm
CodeDevMaster1 小时前
Claude Code Router:一键接入多种AI模型的智能路由器
llm·ai编程·claude
量子位1 小时前
DeepSeek删豆包冲上热搜,大模型世子之争演都不演了
ai编程·deepseek
AmsWait1 小时前
玩转GitHub Copilot新技能:用MCP服务打造你的智能编程助手
ai编程·github copilot·mcp
用户4099322502124 小时前
FastAPI的死信队列处理机制:为何你的消息系统需要它?
后端·ai编程·trae
日月鸟5 小时前
告别死记硬背查命令:我用 AI 半天写了个 AI 命令行
ai编程
老顾聊技术5 小时前
老顾深度解析【字节跳动的AI项目DeerFlow】源码之工程结构(六)
llm·agent