2026年04月07日热门模型

一、总体总结

统计概况:

  • 模型总数:210个(本周),新增107个(对比上周47个)
  • 时间分布:4月7日新增24个,4月6日新增41个(显示周末集中发布特征)
  • 主体格局:Google Gemma 4系列 dominance(占据TOP榜单多数席位),国产模型(Qwopus、OmniWeaving、VoxCPM2)表现活跃,Netflix、Tencent等大厂进入开源领域

核心特征:

  • 多模态爆发:文本-图像-视频-音频的统一处理能力成为标配
  • 端侧优化:1-bit量化(Bonsai)、2B/4B小参数模型(Gemma 4 E2B/E4B)推动边缘部署
  • 架构创新:MoE(混合专家)、Diffusion Language Model、1-bit量化技术并行发展

二、分类体系

按模态能力分类

类别 代表模型 特征
Any-to-Any/多模态大模型 Gemma 4系列、Holo3-35B 统一处理文本/图像/音频/视频,支持Function Calling
文本生成/LLM Bonsai-8B、LFM2.5-350M、Qwopus3.5系列 专注推理、编程、长上下文,部分采用MoE或1-bit架构
语音合成(TTS) OmniVoice、VoxCPM2 零样本克隆、600+语言支持、扩散语言模型架构
视频生成与编辑 VOID、OmniWeaving 物理感知编辑(对象删除)、多模态条件视频生成
量化/部署优化版 Gemma-4-GGUF系列、Bonsai-8B-gguf 4-bit/1-bit量化,适配llama.cpp/MLX

按架构创新分类

技术路线 模型 突破点
MoE架构 Gemma-4-26B-A4B、Holo3-35B-A3B 激活参数仅3.8B/3B,总参数26B/35B,推理成本大幅降低
1-bit量化 Bonsai-8B系列 1.15GB内存占用,14倍压缩比,保持70.5分基准性能
Diffusion LM OmniVoice 扩散语言模型做TTS,RTF低至0.025
VLM for Agent Holo3-35B-A3B 专为GUI Agent优化,OSWorld SOTA

三、关键趋势分析

1. 多模态统一化:从"支持"到"原生"

Gemma 4系列和OmniWeaving代表新一代原生多模态架构,不再是通过插件拼接模态,而是:

  • 统一上下文窗口:256K tokens覆盖文本+视觉+音频
  • 交错输入(Interleaved):任意顺序混合文本/图像/视频输入
  • 端到端训练:音频编码器(300M参数)与语言模型联合优化

2. 效率革命:1-bit与MoE的双轨突破

  • 1-bit极致压缩 :Bonsai-8B证明1.125 bpw(bits per weight)仍能保持竞争力,智能密度(Intelligence Density)概念兴起
  • MoE动态激活:26B总参数仅激活3.8B,实现"大模型能力,小模型成本",Codeforces ELO达1718(Gemma-4-26B-A4B)

3. Agentic能力成为核心战场

  • 工具调用:Gemma 4原生支持Function Calling;Qwopus3.5针对OpenClaw框架优化
  • GUI Agent:Holo3-35B-A3B在OSWorld-Verified达77.8%,用3B激活参数击败更大模型
  • 推理模式分化:从"先想后做"(CoT)转向"边做边优化"(Act-Then-Refine,Qwopus提出)

4. 语音生成的扩散化

OmniVoice和VoxCPM2采用Diffusion Language Model替代传统自回归TTS,实现:

  • 零样本克隆与语音设计的统一
  • 600+语言(OmniVoice)与方言支持(VoxCPM2含中文多方言)
  • 实时流式生成(RTF 0.025-0.3)

5. 视频生成的物理感知与精细化

  • 物理一致性 :VOID模型不仅删除对象,还处理物理交互(如删除人后让被压物体弹起)
  • 多条件控制:OmniWeaving支持文本+图像+视频任意组合输入,引入MLLM进行意图推理

四、模型详细介绍

1. Gemma-4-31B-it(Google)
  • 定位:旗舰级 dense 多模态模型,30.7B参数
  • 核心能力
    • 256K上下文,支持文本/图像/视频(60秒)/音频(30秒)
    • Thinking模式:可控推理开关,AIME 2026达89.2%(无工具)
    • 编程能力:LiveCodeBench v6 80.0%,Codeforces ELO 2150
    • 视觉:MMMU Pro 76.9%,OmniDocBench 0.131(编辑距离,越低越好)
  • 架构:60层Transformer,混合注意力(局部滑动窗口+全局),视觉编码器550M参数
  • 使用 :Apache 2.0,支持Transformers库,需enable_thinking=True开启推理
2. Gemma-4-26B-A4B-it (Google)+ GGUF版(Unsloth)
  • 定位:MoE架构高效模型,25.2B总参数/3.8B激活参数
  • 优势:推理速度接近4B模型,性能接近31B dense(MMLU Pro 82.6% vs 85.2%)
  • GGUF量化:Unsloth提供4-bit GGUF,本地可跑,支持工具调用
3. Gemma-4-E4B-it + E2B-it(Google)
  • 定位 :端侧优化模型,E=Effective(有效参数)
    • E4B:4.5B有效(8B含embedding),支持文本/图像/音频
    • E2B:2.3B有效(5.1B含embedding),128K上下文
  • 技术:Per-Layer Embeddings (PLE)技术,每层独立embedding表,降低推理内存
  • 音频能力:仅E2B/E4B支持ASR和语音翻译(CoVoST 35.54)
4. OmniVoice(k2-fsa)
  • 架构:基于扩散语言模型(Diffusion LM)的TTS
  • 突破:600+语言零样本克隆,RTF 0.025(40倍实时),支持语音设计(通过自然语言描述控制年龄/性别/情绪)
5. Qwopus3.5-9B-v3 + 27B-v3(Jackrong)
  • 基础:基于Qwen3.5的Claude蒸馏优化版
  • 创新
    • 推理效率:HumanEval pass@1达87.80%(9B)/95.73%(27B),推理长度减少25.3%
    • 范式转变:从"Reason-then-Act"转向"Act-then-Refine",适合Agent工作流
    • 工具调用:针对OpenClaw框架强化
  • 训练:Unsloth+LoRA,响应仅训练assistant部分
6. Bonsai-8B-gguf + MLX版(PrismML)
  • 革命性:端到端1-bit量化(GGUF Q1_0),1.15GB内存占用(FP16的1/14)
  • 性能:平均70.5分(MMLU-R/MuSR/GSM8K等),接近Qwen3 8B(79.3分)
  • 部署:支持CUDA/Metal/OpenCL,RTX 4090上TG128达368 tok/s(6.2倍于FP16)
7. Holo3-35B-A3B(H Company)
  • 定位:GUI Agent专用VLM,基于Qwen3.5-35B-A3B微调
  • 性能:OSWorld-Verified 77.8% SOTA,仅3B激活参数
  • 场景:Web/桌面/移动端跨平台自动化,支持ScreenSpot-Pro等 grounding 任务
8. Gemma-4-31B-JANG_4M-CRACK(dealignai)
  • 性质:Gemma-4-31B的"去限制"(abliterated)版本
  • 技术:JANG_4M混合精度(关键层8-bit,压缩层4-bit),18GB体积
  • 能力:HarmBench 93.7%合规(安全测试),保留原始模型能力
9. VoxCPM2(OpenBMB)
  • 架构:2B参数的Tokenizer-free扩散自回归TTS
  • 特色:30语言、48kHz输出、终极克隆(提供参考音频+转录文本)、实时流式(RTX 4090上RTF 0.3)
10. void-model(Netflix)
  • 任务:视频对象与交互删除(Video Object and Interaction Deletion)
  • 技术:基于CogVideoX-Fun-V1.5-5b,使用quadmask(4值掩码)区分删除对象/重叠区域/受影响区域/背景
  • 物理感知:能处理对象删除后的物理后果(如被删除人持有的物体会掉落)
11. HY-OmniWeaving(Tencent)
  • 架构:MLLM(语义解析)+ MMDiT(生成)+ VAE,基于HunyuanVideo-1.5
  • 能力:统一视频生成(T2V/I2V/Video Editing/Reference-to-Video),支持推理增强模式(--think)
  • 创新:Hidden States DeepStacking,提取MLLM多层隐藏状态注入生成器
12. LFM2.5-350M(LiquidAI)
  • 定位:超轻量边缘模型,350M参数,28T tokens训练
  • 性能:在IFEval等任务超越Gemma 3 1B,支持工具调用,313 tok/s(AMD CPU)
  • 架构:16层(10个LIV卷积块+6个GQA块),32K上下文

13. Gemma-4-31B(基础版)
  • 与it版相同架构,预训练版本,适合下游微调
14. Gemma-4-26B-A4B(MoE基础版)
  • 26B MoE架构的基础版本
15. Qwopus3.5-27B-v3-GGUF
  • Qwopus3.5-27B的GGUF量化版,便于本地部署
16. Gemma-4-E2B(基础版)
  • 2B级别基础模型,支持音频多模态

其他提及模型

模型 发布者 简介
Gemma-4-31B-IT-NVFP4 NVIDIA NVFP4量化版,专为Blackwell架构优化,GPQA Diamond 75.46%
Gemma-4-E4B-Uncensored HauhauCS 去审查版本,0/465拒绝率,提供Q2-Q8多种GGUF量化
Bonsai-8B-mlx-1bit PrismML MLX框架1-bit版本,适配Apple Silicon,iPhone 17 Pro Max达44 tok/s

总结

本周模型发布呈现**"大而全"与"小而精"**并行的格局:Google以Gemma 4系列定义了多模态MoE的新标准(26B A4B用3.8B激活参数实现接近31B dense的性能);PrismML的Bonsai-8B则证明了1-bit量化的实用化;Netflix和Tencent在视频生成领域分别解决了物理一致性(VOID)和统一控制(OmniWeaving)的难题。国产模型在TTS(VoxCPM2)、Agent(Holo3)和推理优化(Qwopus3.5)等细分领域表现突出。

相关推荐
IT_陈寒2 小时前
Vue的这个响应式问题,坑了我整整两小时
前端·人工智能·后端
HIT_Weston2 小时前
41、【Agent】【OpenCode】本地代理分析(五)
javascript·人工智能·opencode
万添裁2 小时前
pytorch的张量数据结构以及各种操作函数的底层原理
人工智能·pytorch·python
盘古开天16662 小时前
Gemma4本地部署,零成本打造私有 AI 助手
人工智能·本地部署·智能体·gemma4·ai私有助理
夜影风2 小时前
算力租赁产业链全景分析:解构AI时代的“算力电厂”
人工智能·算力租赁
MediaTea2 小时前
AI 术语通俗词典:矩阵乘法
人工智能·线性代数·矩阵
NHuan^_^2 小时前
SpringBoot3 整合 SpringAI 实现ai助手(记忆)
java·人工智能·spring boot
Binary_ey2 小时前
光刻技术第22期 | 贝叶斯压缩感知光源优化的优化技术及对比分析
人工智能·深度学习·机器学习