DeepSeek开源新基础模型,但不是V4,而是V3.1-Base

昨晚,深度求索在用户群里宣布「DeepSeek 线上模型版本已升级至 V3.1,上下文长度拓展至 128k」并更新了 UI (去掉了 DeepThink 旁的 R1 标示)之后,在 Hugging Face 发布了一款新模型 DeepSeek-V3.1-Base。

模型地址:huggingface.co/deepseek-ai...

从名字也能看出来,该模型是 DeepSeek-V3 系列最新的基础模型。至于为什么命名为 V3.1,而不是像之前以前命名为 V3 带四位日期数字的形式(如 V3-0324),尽管社区有诸多猜测,但深度求索官方尚未给出明确说明 ------ 和该公司之前的操作一样,这一次同样是模型先行,说明和宣传还在后面。

该模型一发布就吸引了 AI 社区的广泛关注,短短几个小时就已经冲上了 Hugging Face 热门模型榜第 4 位!

具体技术指标上,DeepSeek-V3.1-Base 与 DeepSeek-V3 差别不大,同样的参数量,采用了混合专家(MoE)架构,拥有 128k 上下文长度。

整体来看,社交网络上对深度求索的这次更新看法不一。有人表示非常振奋,认为这是深度求索在为接下来的 DeepSeek-V4 和 DeepSeek-R2 做铺垫,但也有人认为这次更新不够亮眼,没有达到该公司之前的一贯水准。

对此,你怎么看?

相关推荐
aneasystone本尊7 分钟前
学习 Coze Studio 的知识库入库逻辑(续)
人工智能
renhongxia18 分钟前
大模型微调RAG、LORA、强化学习
人工智能·深度学习·算法·语言模型
张较瘦_15 分钟前
[论文阅读] 人工智能 | 当Hugging Face遇上GitHub:预训练语言模型的跨平台同步难题与解决方案
论文阅读·人工智能·github
Cloud Traveler38 分钟前
从 0 到 1 开发校园二手交易系统:飞算 JavaAI 全流程实战
人工智能·java开发·飞算javaai炫技赛
m0_6038887140 分钟前
Infusing fine-grained visual knowledge to Vision-Language Models
人工智能·ai·语言模型·自然语言处理·论文速览
Godspeed Zhao1 小时前
自动驾驶中的传感器技术34——Lidar(9)
人工智能·机器学习·自动驾驶
yueyuebaobaoxinx1 小时前
《当 AI 学会 “思考”:大语言模型的逻辑能力进化与隐忧》
人工智能
PythonPioneer1 小时前
颠覆性进化:OpenAI正式发布GPT-5,AI大模型进入“超级智能”时代
人工智能·gpt
唐天下文化1 小时前
bit-Agent正式接入GPT-5,九科信息智能体能力再升级!
人工智能·gpt
山烛2 小时前
矿物分类系统开发笔记(二):模型训练[删除空缺行]
人工智能·笔记·python·机器学习·分类·数据挖掘