小模型吊打大模型,MoE 架构效率惊人

阿里通义 Qwen3 重磅发布:小模型吊打大模型,MoE 架构效率惊人

阿里通义 Qwen3 系列大模型[1]正式推出,本次开源了 2 个 MoE 模型和 6 个密集模型。旗舰模型 Qwen3-235B-A22B 在代码、数学、通用能力等基准测试中表现出色,与 DeepSeek-R1、o1、o3-mini、Grok-3 和 Gemini-2.5-Pro 等顶级模型不相上下。

小型 MoE 模型 Qwen3-30B-A3B 仅需激活 QwQ-32B 10% 的参数就能实现更优表现;

Qwen3-4B 这样的小模型能匹敌 Qwen2.5-72B-Instruct 的性能

Qwen3 提供两种智能模式选择:

  • 思考模式:像老教授一样深思熟虑,逐步推理后给出答案,专治各种复杂疑难杂症
  • 非思考模式:秒回小能手,适合那些「快给我答案别废话」的简单问题

Qwen3 还特别强化了 Agent 和代码能力,同时加强了对 MCP 的支持。

现在已经在 Qwen Chat[2] 上免费使用啦!

不过,我看了下阿里百炼的 API 接入还没出,可能还要再等等。

Qafind 实验室发布 ChatDLM:2800 tokens/秒的极速扩散语言模型

Qafind 实验室推出 ChatDLM,官方号称世界上最快的扩散语言模型,在 A100 GPU 上可达到 2,800 tokens/秒(约DeepSeek 7B 的 30倍),拥有 131,072 tokens上下文窗口,可以处理非常长的文本。

佬们可以在官网使用,晚些时候将会开源,关注我为你持续跟进!

FASHN v1.5 发布:虚拟试穿模型

FASHN v1.5[3] 虚拟试穿模型重磅更新!本次升级支持了更高分辨率输出,并解除了宽高比限制,可以在官网使用,也可以通过 FAL 调用 API[4] 使用

OpenAI 为 ChatGPT 推出原生购物功能

OpenAI[5] 宣布 ChatGPT 搜索重大改进,即将推出购物功能。

现在用户可以直接在对话中查找、比价并完成购买。官方特别强调,所有推荐商品都是算法独立选择,绝非广告植入,我信了,你们呢

本次更新还包含其他改进:

  • 信息来源引用改进;
  • WhatsApp 用户可直接发送消息至 1-800-ChatGPT (+1-800-242-8478) 来调用 GPT 服务。
相关推荐
算家计算1 天前
国产模型新王登基!刚刚,Kimi K2 Thinking发布,多项能力超越GPT-5
人工智能·开源·资讯
算家计算2 天前
小鹏机器人真假难分引全网热议!而这只是开始......
人工智能·机器人·资讯
算家计算3 天前
英伟达谷歌打响“太空算力争夺战”,下一战场竟是星辰大海?
人工智能·芯片·资讯
算家计算4 天前
一张白纸,无限画布:SkyReels刚刚重新定义了AI视频创作
人工智能·aigc·资讯
算家计算5 天前
5年后手机和APP将成历史?马斯克最新预言背后:端云协同与AI操作系统的未来架构
人工智能·云计算·资讯
NocoBase5 天前
NocoBase v1.9.0 正式版发布
低代码·开源·资讯
NocoBase7 天前
6 大企业级无代码低代码平台 RBAC 权限体系深度对比
低代码·开源·资讯
算家计算8 天前
Kimi发布新一代注意力架构!线性注意力实现75% KV缓存减少、6倍解码速度提升
人工智能·开源·资讯
算家计算9 天前
维基百科公开回击马斯克:我们属于人类,不属于亿万富翁!
人工智能·资讯