大家好,我是汤师爷,专注AI智能体分享,致力于帮助100W人用智能体创富~
本周,DeepSeek正式发布了最新版本DeepSeek-V3.1模型。
这次更新带来了混合推理能力,让用户可以在思考模式和非思考模式之间自由切换,实现"一种模型,两种体验"的创新设计。
混合推理,按需思考
DeepSeek-V3.1的核心创新在于混合推理能力。
用户只需点击"深度思考"按钮,就能在两种模式间灵活切换:
- 思考模式:展示完整的推理过程,适合复杂问题解决
- 非思考模式:直接给出简洁答案,适合日常对话
这种设计不仅提升了用户体验,还大幅提高了效率。官方测试数据显示,新版本V3.1-Think与上一代R1-0528相比,在保持同等回答质量的情况下,响应速度更快,且token消耗减少了20%-50%。
简单来说,DeepSeek做到了"既让马儿跑,又要马儿少吃草"的效果。
性能对比,稳中有升
从成绩单来看,V3.1与R1-0528相比基本持平,甚至有小幅提升:
- AIME 2025:V3.1得分88.4(R1为87.5)
- GPQA:V3.1得分80.1(R1为81)
- liveCodeBench:V3.1得分74.8(R1为73.3)
知名机构Artificial Analysis的分析也证实了这一点:DeepSeek-V3.1在推理模式下的得分为60,较R1的59略有提升;在非推理模式下,V3.1的得分为49,相较早期的V3 0324版本得分44有明显进步。
不过,V3.1(推理模式)的表现仍落后于阿里最新的Qwen3 235B 2507(推理模式)版本。
Agent能力大幅增强
DeepSeek表示,V3.1通过后训练优化,在工具使用和多步骤代理任务上实现了显著提升,是迈向Agent(智能体)时代的第一步。
1、编程智能体提升
在SWE-bench代码修复测试中,DeepSeek-V3.1使用内部代码代理框架进行评估,相比开源框架OpenHands所需轮数更少,代码修复能力明显提高。
同时,在Terminal-Bench终端测试中,使用官方Terminus 1 framework进行测试,V3.1在命令行终端环境下的复杂任务处理能力显著增强。
2、搜索能力增强
DeepSeek-V3.1为思考模式中的搜索工具调用设计了专门格式,支持复杂的多轮搜索代理任务。测试结果显示:
- 在需要多步推理的复杂搜索测试(browsecomp)上大幅领先R1-0528
- 在多学科专家级难题测试(HLE)上性能显著提升
- 能够有效支持访问外部或最新信息的复杂问题处理
技术升级,更长上下文与更高效率
DeepSeek-V3.1基于全新的V3.1-Base模型开发,采用"两阶段长上下文扩展方法",在原始V3模型基础上进行大规模扩展训练。整个训练过程新增了8400亿个tokens:
- 32K上下文扩展阶段:训练量增加10倍,达到6300亿tokens
- 128K扩展阶段:增加3.3倍,达到2090亿tokens
在技术规格上,新版本采用UE8M0 FP8缩放格式训练,并升级了分词器。
值得一提的是,DeepSeek官方在公众号评论区透露:"UE8MO FP8是针对即将发布的下一代国产芯片设计。"
DeepSeek同步推出了全新的API服务体系,核心接口发生重要变化:
- deepseek-chat:对应非思考模式
- deepseek-reasoner:对应思考模式
两个接口均支持128K上下文窗口长度,并提供更多API资源。
在功能特性方面:
- Beta API接口支持strict模式的Function Calling,确保输出的Function严格满足schema定义
- 新增对Anthropic API格式的完整支持,用户可以轻松将DeepSeek-V3.1接入Claude Code框架
继续开源,业界良心
延续开源精神,DeepSeek-V3.1-Base模型和后训练模型均已开源。
官方网页端、App、小程序及API开放平台所调用模型也已同步更新,新模型自我认知为DeepSeek-V3。
DeepSeek宣布将于北京时间2025年9月6日凌晨开始执行全新价格表,同时正式取消夜间时段优惠政策。
在9月6日前,所有API服务仍按原价格政策计费,用户可继续享受当前优惠。
对于新的定价策略,有网友评论说:熟悉的鲸鱼又回来了。
DeepSeek-V3.1通过混合推理能力、增强的Agent表现和更长的上下文处理,在保持性能的同时提高了效率。
无论是日常对话还是复杂问题解决,都能提供更好的体验。
想体验的朋友可以前往DeepSeek官网尝鲜,感受这款"一种模型,两种体验"的创新产品!
本文已收录于,我的技术博客:tangshiye.cn 里面有,AI 学习资料,Coze 智能体教程,算法 Leetcode 详解,BAT 面试真题,架构设计,等干货分享。