以下内容包括「人工智能生成内容」
Sam 提出"丰盛智能"愿景,NVDIA 与 OpenAI 达成 10GW GPU 战略合作,阿里 Qwen 团队放出多个大招
👏在昨天(2025.9.23),AI领域有这些内容可能值得你关注:
Sam Altman 提出"丰盛智能"愿景
山姆•奥特曼最新发布的《丰盛的智能》博文描绘了 OpenAI 在 AI 基础设施领域的宏大蓝图。 "随着 AI 变得更智能,获取 AI 将成为经济的基本驱动力,甚至可能最终被视为一项基本人权。" 这一观点成为全文的核心主张。
奥特曼提出要建立每周能生产 1 吉瓦 AI 基础设施的工厂,这个看似科幻的目标需要从芯片到电力、从建筑到机器人等全方位的创新。他特别强调美国在基础设施建设上的落后,希望扭转这一局面。 "如果我们受限于算力,就必须选择优先做哪一个;没人想做这种选择,所以让我们去建造吧。" 博文中列举了 10 吉瓦算力可能实现的突破:找到治愈癌症的方法,或为全球学生提供个性化辅导。奥特曼同时透露,增加算力是增加收入的关键,OpenAI 将在今年晚些时候公布具体融资计划。这一愿景引发广泛讨论,既有支持者认为 AI 连接已是个人体验,也有质疑者呼吁先发布实际产品而非概念。
该计划标志着 AI 发展进入新阶段,基础设施规模将直接影响技术突破和社会应用。奥特曼承诺未来几个月公布合作伙伴和具体实施方案,其成败可能重塑全球 AI 产业格局。
NVDIA 与 OpenAI 达成 10GW GPU 战略合作
NVIDIA 与 OpenAI 宣布了一项具有里程碑意义的战略合作,将部署 10GW 的 NVIDIA GPU 系统来支持 OpenAI 的数据中心增长。这一合作规模空前,相当于数百万块 NVIDIA GPU,将极大推动 AI 技术的发展和应用。
Soumith Chintala 对此进行了有趣的财务分析,估算 OpenAI 可能需要支付 NVIDIA 约 2300 亿美金,而 NVIDIA 可能会将部分资金投资到 OpenAI 股票中。Emad 则提供了背景信息,指出比特币的电力消耗约为 20GW,相比之下,这一合作的电力规模相当可观。
Anthropic CEO Dario 对开源模型的争议性观点引发行业讨论
Anthropic CEO Dario 近日发表了对开源模型的看法,他认为大模型开放 权重不同于传统软件开源,缺乏开发者社区的反向贡献。他指出,开源更多是吸引注意力的手段,用户真正关心的是模型是否好用,而像 Deepseek 这样的超大模型即使开源也难以在本地推理。此外,Dario 强调开源并不等于免费,云端推理服务器的运行成本不容忽视。
这一观点迅速引发了行业内的激烈讨论。HuggingFace 的 CEO ClementDelangue 和《从零构建大模型》作者 Sebastian Raschka 等业内人士纷纷表达了不同意见,认为 Dario 忽视了开源模型在安全性、可微调性和技术研究等方面的重要价值。
Qwen3-Coder-Plus 升级发布
阿里云 Model Studio 现已推出升级版 Qwen3-Coder-Plus,带来显著改进:终端任务能力增强,在 Terminal Bench 上表现更优(支持 Qwen Code 和 Claude Code),SWE-Bench 性能达到 69.6,同时提供更安全的代码生成。
此次升级还包括 Qwen Code 的新功能,新增多模态模型和子代理支持,用户现在可以在与 Qwen Code 协作时输入图像。
开发者可通过阿里云 Model Studio 和 Anycoder 平台访问 Qwen3-Coder-Plus,体验这些新功能。
阿里开源全模态大模型 Qwen3-VL 和 Qwen3-Omni ,支持文本、图像、音频和视频处理
Qwen 团队近日发布了 Qwen3-VL 和 Qwen3-Omni 两款重磅模型,标志着视觉语言和多模态领域的重大进展。Qwen3-VL 具备强大的视觉理解和推理能力,支持从 GUI 操作到代码生成的多种应用,并在多语言 OCR 和空间推理方面表现卓越。同时,Qwen3-Omni 在音频和音视频任务中创下多项 SOTA,展现了多模态联合训练的潜力。
Qwen3-VL 的 Instruct 和 Thinking 版本分别针对视觉基准测试和多模态推理任务优化,支持长达 256K 的上下文处理。Qwen3-Omni 则在 36 项音频基准测试中拿下 32 项开源 SOTA,并保持了与纯文本模型相当的性能。两款模型的开源将为开发者和研究者提供强大的工具支持。
阿里开源新一代 AI 模型架构 Qwen3-Next,训练成本大幅降低 90%
阿里巴巴 旗下的 通义千问 团队正式发布并开源了下一代基础模型架构 Qwen3-Next 。这一创新架构采用了全新的 混合专家系统 (Mixture of Experts,简称 MoE)设计,在保持高性能的同时,大幅降低了模型的训练和推理成本。
Qwen3-Next 架构的核心创新在于其高效的参数使用方式。该模型总参数量达到 800 亿,但在每次推理时仅激活约 30 亿参数,相当于只使用了总参数的 3.7%。这种 高稀疏度 的设计使得模型在性能上能够媲美千问 3 旗舰版 235B 模型,甚至在多项测试中超越了 Google 的 Gemini-2.5-Flash-Thinking 模型。更令人印象深刻的是,其训练成本仅为 Qwen3-32B 的十分之一,实现了 训练成本降低 90% 的突破。
在技术实现上,Qwen3-Next 采用了创新的 混合注意力机制 ,结合了 Gated DeltaNet 和 Gated Attention 两种技术。通义团队通过大量实验发现,单纯使用线性注意力或标准注意力都存在局限性,而将两者以 3:1 的比例混合使用,既能保证长序列建模的效率,又能维持强大的上下文学习能力。这种混合架构特别适合处理超长上下文场景,在 32k tokens 以上的长文本处理中,推理吞吐量达到 Qwen3-32B 的十倍以上。
模型还引入了 多令牌预测 (Multi-Token Prediction,简称 MTP)机制,这一技术不仅提升了模型本身的综合性能,还为后续的推测解码(Speculative Decoding)提供了更高的接受率。通义团队特别优化了 MTP 的多步推理性能,通过训练推理一致的多步训练,进一步提高了在实际应用场景中的效率。
在实际测试中,Qwen3-Next 表现出色。在编程能力、人类偏好对齐以及综合性能力评测中,其指令模型(Instruct)的表现甚至超过了千问的开源旗舰模型。而在数学推理 AIME25 评测中,Qwen3-Next-Thinking 模型获得了 87.8 分的高分,全面超越了 Gemini2.5-Flash-Thinking。目前,该模型已经在 Qwen.ai 平台上线,并上传至 HuggingFace 和 Kaggle 等开源平台,供开发者和研究人员使用。
👏大家好,这里是 Memene 摸鱼日报,致力于为您带来每日AI领域的资讯八卦,让你在上班摸鱼的同时只需多花那么几分钟便可以快速了解 AI 领域的资讯新闻。
我们是一家位于杭州的AI创业团队。以上是我们还在测试的产品的 Memene 的生成效果内容。因为希望得到社区朋友们的反馈,于是我们来掘金社区发布了我们的 Memene 摸鱼日报专栏。
🥳如果您有什么意见,还请在评论区与我们反馈。我们非常期望能够得到大家的真实反馈。