DeepSeek开源新基础模型,但不是V4,而是V3.1-Base

昨晚,深度求索在用户群里宣布「DeepSeek 线上模型版本已升级至 V3.1,上下文长度拓展至 128k」并更新了 UI (去掉了 DeepThink 旁的 R1 标示)之后,在 Hugging Face 发布了一款新模型 DeepSeek-V3.1-Base。

模型地址:huggingface.co/deepseek-ai...

从名字也能看出来,该模型是 DeepSeek-V3 系列最新的基础模型。至于为什么命名为 V3.1,而不是像之前以前命名为 V3 带四位日期数字的形式(如 V3-0324),尽管社区有诸多猜测,但深度求索官方尚未给出明确说明 ------ 和该公司之前的操作一样,这一次同样是模型先行,说明和宣传还在后面。

该模型一发布就吸引了 AI 社区的广泛关注,短短几个小时就已经冲上了 Hugging Face 热门模型榜第 4 位!

具体技术指标上,DeepSeek-V3.1-Base 与 DeepSeek-V3 差别不大,同样的参数量,采用了混合专家(MoE)架构,拥有 128k 上下文长度。

整体来看,社交网络上对深度求索的这次更新看法不一。有人表示非常振奋,认为这是深度求索在为接下来的 DeepSeek-V4 和 DeepSeek-R2 做铺垫,但也有人认为这次更新不够亮眼,没有达到该公司之前的一贯水准。

对此,你怎么看?

相关推荐
段一凡-华北理工大学1 分钟前
工业领域的Hadoop架构学习~系列文章03:MapReduce编程模型深度解读
大数据·人工智能·hadoop·学习·架构·高炉炼铁·高炉智能化
GitCode官方2 分钟前
开源鸿蒙跨平台直播|15场·10大框架|首期:跨平台不是“权衡之选“,而是基础设施
人工智能·华为·开源·harmonyos·atomgit
蓝速科技3 分钟前
3D 数字人全息舱算力部署方案对比:本地 X86 独显架构与云端 RK 架构怎么选才好
数据结构·人工智能·算法·架构·排序算法
没完没了没日没夜784 分钟前
告别Excel表格!全星研发项目管理APQP软件系统:高端制造研发合规与效率的“破局者”
人工智能
狒狒热知识5 分钟前
软文营销媒体发稿行业规范化发展与企业品牌传播安全保障
大数据·人工智能
小程故事多_805 分钟前
从想法到落地零返工,AI Agent六阶段自动化开发全流水线实践
运维·人工智能·自动化
2601_957888566 分钟前
短视频矩阵获客系统的设计与实践:提升企业数字营销效率的路径
大数据·人工智能·矩阵·企业增长
嵌入式-老费6 分钟前
esp开发与应用(按键和状态机)
人工智能
JustNow_Man6 分钟前
“失败后自动拉起修复 Agent”的闭环流水线
前端·人工智能·chrome·python
2601_957879338 分钟前
企业矩阵系统建设实践:从账号管理到AI内容协同
大数据·人工智能·矩阵系统·数字化运营