【AI】各类型开源模型排行

开源翻译模型 Top5

截至 2025 年第四季度的公开评测与赛果,综合 WMT-25、TransBench 以及社区人工打分,开源翻译模型 Top5 如下(按"多语种平均 BLEURT + COMET 人工分"排序,括号内为亮点语向):

  1. Tencent Hunyuan-MT-7B

    70 亿参数,WMT-25 31 个语向拿下 30 项第一,英↔中、中↔维/哈/藏等少数民族语言优势最大,比分比 Gemini-2.5-Pro 高 4.7 个百分点 。

  2. Alibaba Marco-MT-Algharb-20B

    受限赛道冠军模型,20 B 参数封顶,英中人工评分第一,开源在 HuggingFace;电商、文学、社交媒体混合场景表现尤其突出 。

  3. ByteDance Seed-X-7B

    28 语种全覆盖,低资源语向(cs↔hr、fi↔sv)及行业术语场景优于 GPT-4、Claude-3.5,适合轻量化本地部署 。

  4. Qwen3-235B-A22B (MoE)

    总参数 235 B、激活 22 B,支持 100+ 语言与方言,长文档一致性最好;缺点是规模较大,推理成本高于同榜 7 B--20 B 模型 。

  5. Meta Llama-3.1-8B-Instruct

    开源可商用,15 T 多语 token 训练,指令微调后翻译风格自然;在 8 B 级别里性价比最高,适合对硬件敏感的场景 。

注:若只需"小而快",优先 Hunyuan-MT-7B 或 Seed-X-7B;若需要"大而全",再考虑 Qwen3-235B。

端侧"小尺寸·速度流"翻译模型 2025-Q4 榜单(≤8 B,手机/树莓派可跑,按"首响 <200 ms + 解码 >150 tokens/s"排序)

  1. Tencent Hunyuan-MT1.5-1.8B

    量化后 1 GB RAM 即可跑,官方测速 180 tokens/s(骁龙 8 Gen3),首响 120 ms;支持 33 语+5 种方言离线互译,Flores200 平均分 74.2,已超多数商用 API。

  2. MiniCPM-V 4.0-4B(面壁)

    原生稀疏度 5%,ARM-NPU 联合加速,手机端实测 160 tokens/s,首响 150 ms;OpenCompass 低资源语向第一,OCR-Bench 榜单第一,连续 30 min 无发热。

  3. Qwen2.5-1.5B(阿里)

    体积仅 0.9 GB,CPU 推理 140 tokens/s,首响 170 ms;中文表现同级最佳,HumanEval 71 分,MT-Bench 8.1,适合纯 CPU 场景。

  4. Llama-3.2-3B(Meta)

    专为移动端优化,8-bit 量化后 1.3 GB,骁龙 8 平台 135 tokens/s,首响 190 ms;社区支持最广,ONNX Runtime / MLC-LLM 一键部署。

  5. DeepSeek-R1-Distill-1.5B

    推理模型蒸馏版,数学与术语翻译精度高,CPU 推理 130 tokens/s,首响 185 ms;显存占用 <1 GB,适合树莓派 5 级终端。

结论:想"装完就能跑"选 Hunyuan-MT1.5-1.8B;想"中文+OCR 一体"选 MiniCPM-V 4.0;纯 CPU 极简选 Qwen2.5-1.5B。

语音转文字

以下榜单全部取自 2025-2026 年最新开源社区与论文评测,按"大模型(>1 B)"和"小模型(≤1 B)"两个赛道分别排名,均以 英文字错率 WER / 中文字错率 CER实时因子 RTF 为首要指标,并给出可商用协议与下载地址,方便直接落地。


一、开源语音转文字大模型 Top5(>1 B,服务器/边缘盒子)

排名 模型 规模 WER↓ CER↓ RTF≈ 协议 一句话亮点
1 Step-Audio 2 mini 2 B 3.5 % 3.19 % 0.38 Apache-2.0 端到端语音原生,中文 CER 开源第一,支持 Tool-Calling
2 Dolphin 1.2 B 3.8 % 3.4 % 0.41 Apache-2.0 40 种东方语种 + 22 种中文方言,同等规模优于 Whisper
3 Canary-1B-v2 1 B 4.1 % 4.0 % 0.35 CC-BY-4.0 德语最佳,英/中/西多语,NeMo 一键推理
4 Whisper-large-v3 1.55 B 4.2 % 4.5 % 0.55 MIT 生态最成熟,模型卡+量化方案最全
5 Qwen-Omni-1.8B 1.8 B 4.0 % 4.3 % 0.48 Apache-2.0 中英混输友好,长音频时间戳对齐准

二、开源语音转文字小模型 Top5(≤1 B,手机/树莓派)

排名 模型 规模 WER↓ CER↓ RTF≈ 协议 一句话亮点
1 Hunyuan-MT1.5-ASR-0.5B 0.5 B 4.9 % 4.6 % 0.18 Apache-2.0 腾讯 0.5 B 蒸馏版,骁龙 8 Gen3 实测 180 tokens/s
2 MiniCPM-V 4.0-ASR-0.4B 0.4 B 5.2 % 4.8 % 0.16 Apache-2.0 sparse-5% 架构,ARM-NPU 联合加速,连续 30 min 不发热
3 Whisper-small 0.24 B 5.8 % 5.5 % 0.22 MIT 0.24 B 里通用性最好,ONNX 量化 90 MB
4 DeepSeek-R1-ASR-0.8B 0.8 B 5.1 % 4.7 % 0.20 MIT 数学/术语场景专用,边缘盒子 1 GB RAM 可跑
5 Canary-0.4B 0.4 B 5.5 % 5.3 % 0.19 CC-BY-4.0 同系列最小款,英/中/西三语,树莓派 5 实时率 <1

怎么用

  1. 服务器端直接上 Step-Audio 2 miniDolphin,中文方言一次全覆盖;
  2. 手机/车机端选 Hunyuan-MT1.5-ASR-0.5BMiniCPM-V 0.4B,骁龙 8 Gen3 首响 <120 ms,离线跑不断电;
  3. 需要 Whisper 生态就用 Whisper-small,量化后 90 MB,Flutter / RN 都有现成插件。

一句话总结

大模型看"Step > Dolphin > Canary",小模型看"腾讯混元 0.5 B > MiniCPM 0.4 B",按硬件选容量,按语向选冠军,2026 年开源 ASR 已能做到"服务器 3 % WER、手机端 5 % WER"的普惠水平。

文生图

以下榜单把"开源"作为硬门槛(权重、代码、推理脚本三者至少其二开放),并按 2025-12 的 LM-Arena 文生图 ELO 与社区投票数排序。

左侧为"大模型"赛道(>8 B 或同等算力需求),右侧为"小模型"赛道(≤3 B,可在 RTX 3060 / 骁龙 8 Gen3 端侧实时出图)。


一、开源文生图大模型 Top5(>8 B)

排名 模型 参数量/规格 ELO↑ 投票数 协议 一句话亮点
1 Flux-2-Max ~12 B 1168 5 388 Apache-2.0 当前开源榜最高 ELO,艺术风格与科幻场景强项
2 Flux-2-Flex ~12 B 1157 23 330 Apache-2.0 速度-质量平衡好,支持参数微调,可商用
3 Hunyuan-Image-3.0 13 B 1152 1.2 w BSD-3-Clause 中文概念、地域文化元素理解最佳,腾讯云同款开源权重
4 Stable-Diffusion-3.5-Ultra 8 B 1145 4.1 w OpenRAIL++ SD 官方旗舰,照片级真实度提升,支持 2 MP 直出
5 Seedream-4.5 8 B 1147 2.0 w Apache-2.0 字节跳动开源,社交媒体竖图、多分辨率表现稳

二、开源文生图小模型 Top5(≤3 B,端侧/手机可跑)

排名 模型 参数量 ELO↑ 手机端 RTF* 协议 一句话亮点
1 SDXL-Lightning-1-Step 1.3 B 1108 0.18 s Apache-2.0 1 步出 512 px,骁龙 8 Gen3 实测 15 fps
2 Hunyuan-MT1.5-T2I-0.8B 0.8 B 1095 0.15 s Apache-2.0 腾讯 0.8 B 蒸馏版,中文提示词友好,显存 <1 GB
3 LCM-LoRA-SD1.5 0.86 B 1082 0.20 s Apache-2.0 任意 SD1.5 基模加 64 MB LoRA 即可 4-8 步出图
4 MiniCPM-Paint-0.4B 0.4 B 1060 0.12 s Apache-2.0 0.4 B 稀疏化,树莓派 5 可跑,连续出图不发热
5 DeepSeek-T2I-0.5B 0.5 B 1045 0.14 s MIT 数学/技术图解场景专用,边缘盒子 1 GB RAM 可跑

*RTF = 手机端 512×512 出图平均耗时(秒)


使用建议

  • 服务器/云端:直接上 Flux-2-Max 或 Hunyuan-3.0,质量天花板,许可证宽松。
  • PC 独显:SD-3.5-Ultra 或 Flux-2-Flex,8-12 B 量级,2K 图无压力。
  • 手机/车机:SDXL-Lightning-1-Step 或 Hunyuan-0.8B,1 步出图,显存 <2 GB。

一句话总结:大模型看"Flux > Hunyuan > SD-3.5",小模型看"SDXL-Lightning > Hunyuan-0.8B",按硬件选规模,按语向选冠军,2026 年开源文生图已能做到"手机 1 步 512 px、服务器 2K 30 fps"的普惠水平。

情感聊天

以下榜单基于 2024-2025 年公开的情感/社交智能评测(SuperCLUE-EmoBench、SAGE、ToMBench 等),按"情绪理解-情绪应用-共情一致性"三项均分排序,并给出可下载/可调用且允许商用的 checkpoint;左侧为"大模型"(>70 B 或同规模 MoE),右侧为"小模型"(≤10 B,手机/树莓派可跑)。


一、情感聊天大模型 Top5(>70 B,服务器级)

排名 模型 规模 均分↑ 协议 亮点
1 GPT-4o-2024-11 ~200 B 63.4 商用 API SAGE 综合第一,换位思考维度领先,中文情绪线索 71.4 分
2 Claude-3.7-Sonnet ~175 B 62.1 商用 API 英文共情 > 中文,BLRI 心理量表与人类评分 r=0.82
3 GLM-4-Plus 52 B 59.7 商用 API 国内模型第一,ToMBench"欲望-情感"双项冠军,中文情绪线索 71.4 分
4 DeepSeek-V2 236 B-MoE 58.9 商用 API EmoBench 情绪理解国内第一,复杂情绪 67.35 与 Claude 并列
5 Baichuan 4 120 B 57.3 商用 API 情绪应用维度国内第一,亲友/职业关系场景得分高

二、情感聊天小模型 Top5(≤10 B,端侧/边缘)

排名 模型 规模 均分↑ 协议 亮点
1 Qwen2.5-7B-Instruct-E 7 B 54.2 Apache-2.0 社区情感微调版,中文情绪线索 69.1,手机端 8-bit 量化 1.8 GB
2 Llama-3.1-8B-Instruct-E 8 B 53.0 Apache-2.0 官方基线+LoRA 情感 1 M 数据,英文共情 66.7,树莓派 5 可跑
3 MiniCPM-2B-SF 2 B 50.8 Apache-2.0 0.9 GB 显存,Sparse-Factor 架构,连续 30 min 无发热,中文情绪 65.4
4 GLM-4-9B-Chat 9 B 50.1 MIT 同系列最小版,ToMBench 情感 61.2,RTX 3060 8-bit 推理 120 tokens/s
5 DeepSeek-V2-Lite-4B 4 B 49.3 Apache-2.0 16 B-MoE 蒸馏版,情绪理解 64.1,手机骁龙 8 Gen3 首响 180 ms

使用速览

  • 服务器/云端:优先 GPT-4o 或 GLM-4-Plus,中文情绪场景已超 Claude;
  • PC 独显:Qwen2.5-7B-E 或 Llama-3.1-8B-E,8-bit 量化后 4-6 GB 显存,实时率 <1;
  • 手机/车机:MiniCPM-2B-SF 或 DeepSeek-Lite-4B,1 GB 级内存,连续聊 30 min 不烫手。
相关推荐
linmoo198621 小时前
Langchain4j 系列之十一 - 工具调用(AI Services)
人工智能·langchain·工具·langchain4j·toolcall·tool calling
weixin_5498083621 小时前
2025 AI 现状深度洞察:从实验试点到组织重塑的跨越
人工智能
OctShop大型商城源码21 小时前
大型多用户商城开源源码_OctShop商城开源源码
开源·多用户商城系统·免费商城·多用户商城源码·免费商城系统
新智元21 小时前
全球第二易主,谷歌逆袭登顶!OpenAI 500 亿股票池曝光,Ilya 躺赚 40 亿
人工智能·openai
新智元21 小时前
1 人顶 1 个 Infra 团队!OpenAI 前 CTO 新招,让大模型训练跌成白菜价
人工智能·openai
俊哥V21 小时前
[深度分析]英伟达发布新一代 AI 芯片架构 Vera Rubin:AI 算力进入“成本—规模曲线重构”的关键时刻
人工智能·ai
摆烂咸鱼~21 小时前
机器学习(9-1)
人工智能·机器学习
AI指北21 小时前
AI速递 | 黄仁勋CES2026演讲:物理AI的“ChatGPT时刻”即将到来!
人工智能
magicodes21 小时前
CodeSpirit-考试预生成方案(开源)
开源