DeepSeek-V3.1发布,Agent 时代彻底来了

大家好,我是汤师爷,专注AI智能体分享,致力于帮助100W人用智能体创富~

本周,DeepSeek正式发布了最新版本DeepSeek-V3.1模型。

这次更新带来了混合推理能力,让用户可以在思考模式和非思考模式之间自由切换,实现"一种模型,两种体验"的创新设计。

混合推理,按需思考

DeepSeek-V3.1的核心创新在于混合推理能力。

用户只需点击"深度思考"按钮,就能在两种模式间灵活切换:

  • 思考模式:展示完整的推理过程,适合复杂问题解决
  • 非思考模式:直接给出简洁答案,适合日常对话

这种设计不仅提升了用户体验,还大幅提高了效率。官方测试数据显示,新版本V3.1-Think与上一代R1-0528相比,在保持同等回答质量的情况下,响应速度更快,且token消耗减少了20%-50%。

简单来说,DeepSeek做到了"既让马儿跑,又要马儿少吃草"的效果。

性能对比,稳中有升

从成绩单来看,V3.1与R1-0528相比基本持平,甚至有小幅提升:

  • AIME 2025:V3.1得分88.4(R1为87.5)
  • GPQA:V3.1得分80.1(R1为81)
  • liveCodeBench:V3.1得分74.8(R1为73.3)

知名机构Artificial Analysis的分析也证实了这一点:DeepSeek-V3.1在推理模式下的得分为60,较R1的59略有提升;在非推理模式下,V3.1的得分为49,相较早期的V3 0324版本得分44有明显进步。

不过,V3.1(推理模式)的表现仍落后于阿里最新的Qwen3 235B 2507(推理模式)版本。

Agent能力大幅增强

DeepSeek表示,V3.1通过后训练优化,在工具使用和多步骤代理任务上实现了显著提升,是迈向Agent(智能体)时代的第一步。

1、编程智能体提升

在SWE-bench代码修复测试中,DeepSeek-V3.1使用内部代码代理框架进行评估,相比开源框架OpenHands所需轮数更少,代码修复能力明显提高。

同时,在Terminal-Bench终端测试中,使用官方Terminus 1 framework进行测试,V3.1在命令行终端环境下的复杂任务处理能力显著增强。

2、搜索能力增强

DeepSeek-V3.1为思考模式中的搜索工具调用设计了专门格式,支持复杂的多轮搜索代理任务。测试结果显示:

  • 在需要多步推理的复杂搜索测试(browsecomp)上大幅领先R1-0528
  • 在多学科专家级难题测试(HLE)上性能显著提升
  • 能够有效支持访问外部或最新信息的复杂问题处理

技术升级,更长上下文与更高效率

DeepSeek-V3.1基于全新的V3.1-Base模型开发,采用"两阶段长上下文扩展方法",在原始V3模型基础上进行大规模扩展训练。整个训练过程新增了8400亿个tokens:

  • 32K上下文扩展阶段:训练量增加10倍,达到6300亿tokens
  • 128K扩展阶段:增加3.3倍,达到2090亿tokens

在技术规格上,新版本采用UE8M0 FP8缩放格式训练,并升级了分词器。

值得一提的是,DeepSeek官方在公众号评论区透露:"UE8MO FP8是针对即将发布的下一代国产芯片设计。"

DeepSeek同步推出了全新的API服务体系,核心接口发生重要变化:

  • deepseek-chat:对应非思考模式
  • deepseek-reasoner:对应思考模式

两个接口均支持128K上下文窗口长度,并提供更多API资源。

在功能特性方面:

  • Beta API接口支持strict模式的Function Calling,确保输出的Function严格满足schema定义
  • 新增对Anthropic API格式的完整支持,用户可以轻松将DeepSeek-V3.1接入Claude Code框架

继续开源,业界良心

延续开源精神,DeepSeek-V3.1-Base模型和后训练模型均已开源。

官方网页端、App、小程序及API开放平台所调用模型也已同步更新,新模型自我认知为DeepSeek-V3。

DeepSeek宣布将于北京时间2025年9月6日凌晨开始执行全新价格表,同时正式取消夜间时段优惠政策。

在9月6日前,所有API服务仍按原价格政策计费,用户可继续享受当前优惠。

对于新的定价策略,有网友评论说:熟悉的鲸鱼又回来了。

DeepSeek-V3.1通过混合推理能力、增强的Agent表现和更长的上下文处理,在保持性能的同时提高了效率。

无论是日常对话还是复杂问题解决,都能提供更好的体验。

想体验的朋友可以前往DeepSeek官网尝鲜,感受这款"一种模型,两种体验"的创新产品!

本文已收录于,我的技术博客:tangshiye.cn 里面有,AI 学习资料,Coze 智能体教程,算法 Leetcode 详解,BAT 面试真题,架构设计,等干货分享。