DeepSeek开源新基础模型,但不是V4,而是V3.1-Base

昨晚,深度求索在用户群里宣布「DeepSeek 线上模型版本已升级至 V3.1,上下文长度拓展至 128k」并更新了 UI (去掉了 DeepThink 旁的 R1 标示)之后,在 Hugging Face 发布了一款新模型 DeepSeek-V3.1-Base。

模型地址:huggingface.co/deepseek-ai...

从名字也能看出来,该模型是 DeepSeek-V3 系列最新的基础模型。至于为什么命名为 V3.1,而不是像之前以前命名为 V3 带四位日期数字的形式(如 V3-0324),尽管社区有诸多猜测,但深度求索官方尚未给出明确说明 ------ 和该公司之前的操作一样,这一次同样是模型先行,说明和宣传还在后面。

该模型一发布就吸引了 AI 社区的广泛关注,短短几个小时就已经冲上了 Hugging Face 热门模型榜第 4 位!

具体技术指标上,DeepSeek-V3.1-Base 与 DeepSeek-V3 差别不大,同样的参数量,采用了混合专家(MoE)架构,拥有 128k 上下文长度。

整体来看,社交网络上对深度求索的这次更新看法不一。有人表示非常振奋,认为这是深度求索在为接下来的 DeepSeek-V4 和 DeepSeek-R2 做铺垫,但也有人认为这次更新不够亮眼,没有达到该公司之前的一贯水准。

对此,你怎么看?

相关推荐
爱喝可乐的老王3 分钟前
PyTorch简介与安装
人工智能·pytorch·python
deephub8 分钟前
用 PyTorch 实现 LLM-JEPA:不预测 token,预测嵌入
人工智能·pytorch·python·深度学习·大语言模型
量子-Alex13 分钟前
【多模态大模型】Qwen2-VL项目代码初步解析
人工智能
飞鹰5120 分钟前
深度学习算子CUDA优化实战:从GEMM到Transformer—Week4学习总结
c++·人工智能·深度学习·学习·transformer
工程师老罗22 分钟前
Pytorch如何验证模型?
人工智能·pytorch·深度学习
Hi_kenyon24 分钟前
Skills精选
人工智能
沈浩(种子思维作者)32 分钟前
铁的居里点(770度就不被磁铁吸了)道理是什么?能不能精确计算出来?
人工智能·python·flask·量子计算
沛沛老爹33 分钟前
Web开发者转型AI:多模态Agent视频分析技能开发实战
前端·人工智能·音视频
张小凡vip35 分钟前
数据挖掘(九) --Anaconda 全面了解与安装指南
人工智能·数据挖掘
zhangfeng113336 分钟前
Ollama 支持模型微调但是不支持词库,支持RAG,go语言开发的大模型的推理应用,
人工智能·深度学习·golang