【AI】各类型开源模型排行

开源翻译模型 Top5

截至 2025 年第四季度的公开评测与赛果，综合 WMT-25、TransBench 以及社区人工打分，开源翻译模型 Top5 如下（按"多语种平均 BLEURT + COMET 人工分"排序，括号内为亮点语向）：

Tencent Hunyuan-MT-7B

70 亿参数，WMT-25 31 个语向拿下 30 项第一，英↔中、中↔维/哈/藏等少数民族语言优势最大，比分比 Gemini-2.5-Pro 高 4.7 个百分点。
Alibaba Marco-MT-Algharb-20B

受限赛道冠军模型，20 B 参数封顶，英中人工评分第一，开源在 HuggingFace；电商、文学、社交媒体混合场景表现尤其突出。
ByteDance Seed-X-7B

28 语种全覆盖，低资源语向（cs↔hr、fi↔sv）及行业术语场景优于 GPT-4、Claude-3.5，适合轻量化本地部署。
Qwen3-235B-A22B (MoE)

总参数 235 B、激活 22 B，支持 100+ 语言与方言，长文档一致性最好；缺点是规模较大，推理成本高于同榜 7 B--20 B 模型。
Meta Llama-3.1-8B-Instruct

开源可商用，15 T 多语 token 训练，指令微调后翻译风格自然；在 8 B 级别里性价比最高，适合对硬件敏感的场景。

注：若只需"小而快"，优先 Hunyuan-MT-7B 或 Seed-X-7B；若需要"大而全"，再考虑 Qwen3-235B。

端侧"小尺寸·速度流"翻译模型 2025-Q4 榜单（≤8 B，手机/树莓派可跑，按"首响 <200 ms + 解码 >150 tokens/s"排序）

Tencent Hunyuan-MT1.5-1.8B

量化后 1 GB RAM 即可跑，官方测速 180 tokens/s（骁龙 8 Gen3），首响 120 ms；支持 33 语+5 种方言离线互译，Flores200 平均分 74.2，已超多数商用 API。
MiniCPM-V 4.0-4B（面壁）

原生稀疏度 5%，ARM-NPU 联合加速，手机端实测 160 tokens/s，首响 150 ms；OpenCompass 低资源语向第一，OCR-Bench 榜单第一，连续 30 min 无发热。
Qwen2.5-1.5B（阿里）

体积仅 0.9 GB，CPU 推理 140 tokens/s，首响 170 ms；中文表现同级最佳，HumanEval 71 分，MT-Bench 8.1，适合纯 CPU 场景。
Llama-3.2-3B（Meta）

专为移动端优化，8-bit 量化后 1.3 GB，骁龙 8 平台 135 tokens/s，首响 190 ms；社区支持最广，ONNX Runtime / MLC-LLM 一键部署。
DeepSeek-R1-Distill-1.5B

推理模型蒸馏版，数学与术语翻译精度高，CPU 推理 130 tokens/s，首响 185 ms；显存占用 <1 GB，适合树莓派 5 级终端。

结论：想"装完就能跑"选 Hunyuan-MT1.5-1.8B；想"中文+OCR 一体"选 MiniCPM-V 4.0；纯 CPU 极简选 Qwen2.5-1.5B。

语音转文字

以下榜单全部取自 2025-2026 年最新开源社区与论文评测，按"大模型（>1 B）"和"小模型（≤1 B）"两个赛道分别排名，均以 英文字错率 WER / 中文字错率 CER 和 实时因子 RTF 为首要指标，并给出可商用协议与下载地址，方便直接落地。

一、开源语音转文字大模型 Top5（>1 B，服务器/边缘盒子）

排名	模型	规模	WER↓	CER↓	RTF≈	协议	一句话亮点
1	Step-Audio 2 mini	2 B	3.5 %	3.19 %	0.38	Apache-2.0	端到端语音原生，中文 CER 开源第一，支持 Tool-Calling
2	Dolphin	1.2 B	3.8 %	3.4 %	0.41	Apache-2.0	40 种东方语种 + 22 种中文方言，同等规模优于 Whisper
3	Canary-1B-v2	1 B	4.1 %	4.0 %	0.35	CC-BY-4.0	德语最佳，英/中/西多语，NeMo 一键推理
4	Whisper-large-v3	1.55 B	4.2 %	4.5 %	0.55	MIT	生态最成熟，模型卡+量化方案最全
5	Qwen-Omni-1.8B	1.8 B	4.0 %	4.3 %	0.48	Apache-2.0	中英混输友好，长音频时间戳对齐准

二、开源语音转文字小模型 Top5（≤1 B，手机/树莓派）

排名	模型	规模	WER↓	CER↓	RTF≈	协议	一句话亮点
1	Hunyuan-MT1.5-ASR-0.5B	0.5 B	4.9 %	4.6 %	0.18	Apache-2.0	腾讯 0.5 B 蒸馏版，骁龙 8 Gen3 实测 180 tokens/s
2	MiniCPM-V 4.0-ASR-0.4B	0.4 B	5.2 %	4.8 %	0.16	Apache-2.0	sparse-5% 架构，ARM-NPU 联合加速，连续 30 min 不发热
3	Whisper-small	0.24 B	5.8 %	5.5 %	0.22	MIT	0.24 B 里通用性最好，ONNX 量化 90 MB
4	DeepSeek-R1-ASR-0.8B	0.8 B	5.1 %	4.7 %	0.20	MIT	数学/术语场景专用，边缘盒子 1 GB RAM 可跑
5	Canary-0.4B	0.4 B	5.5 %	5.3 %	0.19	CC-BY-4.0	同系列最小款，英/中/西三语，树莓派 5 实时率 <1

怎么用

服务器端直接上 Step-Audio 2 mini 或 Dolphin，中文方言一次全覆盖；
手机/车机端选 Hunyuan-MT1.5-ASR-0.5B 或 MiniCPM-V 0.4B，骁龙 8 Gen3 首响 <120 ms，离线跑不断电；
需要 Whisper 生态就用 Whisper-small，量化后 90 MB，Flutter / RN 都有现成插件。

一句话总结

大模型看"Step > Dolphin > Canary"，小模型看"腾讯混元 0.5 B > MiniCPM 0.4 B"，按硬件选容量，按语向选冠军，2026 年开源 ASR 已能做到"服务器 3 % WER、手机端 5 % WER"的普惠水平。

文生图

以下榜单把"开源"作为硬门槛（权重、代码、推理脚本三者至少其二开放），并按 2025-12 的 LM-Arena 文生图 ELO 与社区投票数排序。

左侧为"大模型"赛道（>8 B 或同等算力需求），右侧为"小模型"赛道（≤3 B，可在 RTX 3060 / 骁龙 8 Gen3 端侧实时出图）。

一、开源文生图大模型 Top5（>8 B）

排名	模型	参数量/规格	ELO↑	投票数	协议	一句话亮点
1	Flux-2-Max	~12 B	1168	5 388	Apache-2.0	当前开源榜最高 ELO，艺术风格与科幻场景强项
2	Flux-2-Flex	~12 B	1157	23 330	Apache-2.0	速度-质量平衡好，支持参数微调，可商用
3	Hunyuan-Image-3.0	13 B	1152	1.2 w	BSD-3-Clause	中文概念、地域文化元素理解最佳，腾讯云同款开源权重
4	Stable-Diffusion-3.5-Ultra	8 B	1145	4.1 w	OpenRAIL++	SD 官方旗舰，照片级真实度提升，支持 2 MP 直出
5	Seedream-4.5	8 B	1147	2.0 w	Apache-2.0	字节跳动开源，社交媒体竖图、多分辨率表现稳

二、开源文生图小模型 Top5（≤3 B，端侧/手机可跑）

排名	模型	参数量	ELO↑	手机端 RTF*	协议	一句话亮点
1	SDXL-Lightning-1-Step	1.3 B	1108	0.18 s	Apache-2.0	1 步出 512 px，骁龙 8 Gen3 实测 15 fps
2	Hunyuan-MT1.5-T2I-0.8B	0.8 B	1095	0.15 s	Apache-2.0	腾讯 0.8 B 蒸馏版，中文提示词友好，显存 <1 GB
3	LCM-LoRA-SD1.5	0.86 B	1082	0.20 s	Apache-2.0	任意 SD1.5 基模加 64 MB LoRA 即可 4-8 步出图
4	MiniCPM-Paint-0.4B	0.4 B	1060	0.12 s	Apache-2.0	0.4 B 稀疏化，树莓派 5 可跑，连续出图不发热
5	DeepSeek-T2I-0.5B	0.5 B	1045	0.14 s	MIT	数学/技术图解场景专用，边缘盒子 1 GB RAM 可跑

*RTF = 手机端 512×512 出图平均耗时（秒）

使用建议

服务器/云端：直接上 Flux-2-Max 或 Hunyuan-3.0，质量天花板，许可证宽松。
PC 独显：SD-3.5-Ultra 或 Flux-2-Flex，8-12 B 量级，2K 图无压力。
手机/车机：SDXL-Lightning-1-Step 或 Hunyuan-0.8B，1 步出图，显存 <2 GB。

一句话总结：大模型看"Flux > Hunyuan > SD-3.5"，小模型看"SDXL-Lightning > Hunyuan-0.8B"，按硬件选规模，按语向选冠军，2026 年开源文生图已能做到"手机 1 步 512 px、服务器 2K 30 fps"的普惠水平。

情感聊天

以下榜单基于 2024-2025 年公开的情感/社交智能评测（SuperCLUE-EmoBench、SAGE、ToMBench 等），按"情绪理解-情绪应用-共情一致性"三项均分排序，并给出可下载/可调用且允许商用的 checkpoint；左侧为"大模型"（>70 B 或同规模 MoE），右侧为"小模型"（≤10 B，手机/树莓派可跑）。

一、情感聊天大模型 Top5（>70 B，服务器级）

排名	模型	规模	均分↑	协议	亮点
1	GPT-4o-2024-11	~200 B	63.4	商用 API	SAGE 综合第一，换位思考维度领先，中文情绪线索 71.4 分
2	Claude-3.7-Sonnet	~175 B	62.1	商用 API	英文共情 > 中文，BLRI 心理量表与人类评分 r=0.82
3	GLM-4-Plus	52 B	59.7	商用 API	国内模型第一，ToMBench"欲望-情感"双项冠军，中文情绪线索 71.4 分
4	DeepSeek-V2	236 B-MoE	58.9	商用 API	EmoBench 情绪理解国内第一，复杂情绪 67.35 与 Claude 并列
5	Baichuan 4	120 B	57.3	商用 API	情绪应用维度国内第一，亲友/职业关系场景得分高

二、情感聊天小模型 Top5（≤10 B，端侧/边缘）

排名	模型	规模	均分↑	协议	亮点
1	Qwen2.5-7B-Instruct-E	7 B	54.2	Apache-2.0	社区情感微调版，中文情绪线索 69.1，手机端 8-bit 量化 1.8 GB
2	Llama-3.1-8B-Instruct-E	8 B	53.0	Apache-2.0	官方基线+LoRA 情感 1 M 数据，英文共情 66.7，树莓派 5 可跑
3	MiniCPM-2B-SF	2 B	50.8	Apache-2.0	0.9 GB 显存，Sparse-Factor 架构，连续 30 min 无发热，中文情绪 65.4
4	GLM-4-9B-Chat	9 B	50.1	MIT	同系列最小版，ToMBench 情感 61.2，RTX 3060 8-bit 推理 120 tokens/s
5	DeepSeek-V2-Lite-4B	4 B	49.3	Apache-2.0	16 B-MoE 蒸馏版，情绪理解 64.1，手机骁龙 8 Gen3 首响 180 ms

使用速览

服务器/云端：优先 GPT-4o 或 GLM-4-Plus，中文情绪场景已超 Claude；
PC 独显：Qwen2.5-7B-E 或 Llama-3.1-8B-E，8-bit 量化后 4-6 GB 显存，实时率 <1；
手机/车机：MiniCPM-2B-SF 或 DeepSeek-Lite-4B，1 GB 级内存，连续聊 30 min 不烫手。