DeepSeek开源新基础模型,但不是V4,而是V3.1-Base

昨晚,深度求索在用户群里宣布「DeepSeek 线上模型版本已升级至 V3.1,上下文长度拓展至 128k」并更新了 UI (去掉了 DeepThink 旁的 R1 标示)之后,在 Hugging Face 发布了一款新模型 DeepSeek-V3.1-Base。

模型地址:huggingface.co/deepseek-ai...

从名字也能看出来,该模型是 DeepSeek-V3 系列最新的基础模型。至于为什么命名为 V3.1,而不是像之前以前命名为 V3 带四位日期数字的形式(如 V3-0324),尽管社区有诸多猜测,但深度求索官方尚未给出明确说明 ------ 和该公司之前的操作一样,这一次同样是模型先行,说明和宣传还在后面。

该模型一发布就吸引了 AI 社区的广泛关注,短短几个小时就已经冲上了 Hugging Face 热门模型榜第 4 位!

具体技术指标上,DeepSeek-V3.1-Base 与 DeepSeek-V3 差别不大,同样的参数量,采用了混合专家(MoE)架构,拥有 128k 上下文长度。

整体来看,社交网络上对深度求索的这次更新看法不一。有人表示非常振奋,认为这是深度求索在为接下来的 DeepSeek-V4 和 DeepSeek-R2 做铺垫,但也有人认为这次更新不够亮眼,没有达到该公司之前的一贯水准。

对此,你怎么看?

相关推荐
stbomei4 分钟前
2025 AI 落地图谱:从技术突破到产业重构的变革之路
人工智能·重构
AI数据皮皮侠36 分钟前
全国各省市绿色金融指数及原始数据(1990-2022年)
大数据·人工智能·python·深度学习·机器学习·金融
zzywxc78738 分钟前
AI行业应用全景:从金融风控到智能制造的落地实践与技术解析
人工智能·深度学习·spring·机器学习·prompt·制造
丁学文武1 小时前
大模型原理与实践:第二章-Transformer架构_第2部分Encoder-Decoder架构
人工智能·深度学习·transformer
liliangcsdn1 小时前
基于ollama运行27b gemma3解决ffmpeg命令生成问题
人工智能·ffmpeg
云雾J视界2 小时前
算法偏见的解药:将敏捷“灵魂”注入AI伦理
人工智能·算法·谷歌·伦理债·算法偏见·高效程序员·ai决策系统
码界奇点2 小时前
京东JoyAgent-JDGenie开源多智能体系统如何重塑AI应用落地新范式
人工智能·ai·智能手机·开源
小Tomkk3 小时前
AI 提效:利用 AI 从前端 快速转型为UI/UX设计师和产品
前端·人工智能·ui
王哥儿聊AI3 小时前
CompLLM 来了:长文本 Q&A 效率革命,线性复杂度 + 缓存复用,推理速度与效果双丰收
人工智能·深度学习·机器学习·语言模型
minhuan3 小时前
构建AI智能体:四十六、Codebuddy MCP 实践:用高德地图搭建旅游攻略系统
人工智能·mcp·codebuddy·高德api