DeepSeek开源新基础模型,但不是V4,而是V3.1-Base

昨晚,深度求索在用户群里宣布「DeepSeek 线上模型版本已升级至 V3.1,上下文长度拓展至 128k」并更新了 UI (去掉了 DeepThink 旁的 R1 标示)之后,在 Hugging Face 发布了一款新模型 DeepSeek-V3.1-Base。

模型地址:huggingface.co/deepseek-ai...

从名字也能看出来,该模型是 DeepSeek-V3 系列最新的基础模型。至于为什么命名为 V3.1,而不是像之前以前命名为 V3 带四位日期数字的形式(如 V3-0324),尽管社区有诸多猜测,但深度求索官方尚未给出明确说明 ------ 和该公司之前的操作一样,这一次同样是模型先行,说明和宣传还在后面。

该模型一发布就吸引了 AI 社区的广泛关注,短短几个小时就已经冲上了 Hugging Face 热门模型榜第 4 位!

具体技术指标上,DeepSeek-V3.1-Base 与 DeepSeek-V3 差别不大,同样的参数量,采用了混合专家(MoE)架构,拥有 128k 上下文长度。

整体来看,社交网络上对深度求索的这次更新看法不一。有人表示非常振奋,认为这是深度求索在为接下来的 DeepSeek-V4 和 DeepSeek-R2 做铺垫,但也有人认为这次更新不够亮眼,没有达到该公司之前的一贯水准。

对此,你怎么看?

相关推荐
AI_Auto6 小时前
智能制造 - 人工智能、隐私保护、信息安全
人工智能·制造
一只乔哇噻6 小时前
java后端工程师+AI大模型开发进修ing(研一版‖day60)
java·开发语言·人工智能·学习·语言模型
千里码aicood6 小时前
计算机大数据、人工智能与智能系统开发定制开发
大数据·人工智能·深度学习·决策树·机器学习·森林树
币圈菜头6 小时前
【空投速递】GAEA项目解析:首个集成人类情感数据的去中心化AI训练网络
人工智能·web3·去中心化·区块链
Dcs8 小时前
你的 Prompt 都该重写?
人工智能·ai编程
木卫二号Coding8 小时前
第五十三篇-Ollama+V100+Qwen3:4B-性能
人工智能
飞哥数智坊8 小时前
AI 不只是聊天:聊聊我最近在做的新方向
人工智能
学生高德8 小时前
小模型结合大模型的加速方法关键笔记
人工智能·深度学习·机器学习
蓝耘智算8 小时前
GPU算力租赁与算力云平台选型指南:从需求匹配到成本优化的实战思路
大数据·人工智能·ai·gpu算力·蓝耘
liliangcsdn9 小时前
如何用bootstrap模拟估计pass@k
大数据·人工智能·bootstrap