列举开源的模型和推理框架

时空无限2025-06-15 17:31

当然可以！下面是一个系统性的列表，按 开源大模型（LLM） 和 推理框架 两大类列出，并配上简要说明。

🧠 一、开源大语言模型（LLMs）

名称	发布者	语言能力	模型大小	特点
LLaMA 2 / 3	Meta	英文强，少量多语	7B/13B/70B	非商业使用需申请；社区生态广泛
Qwen / Qwen1.5	阿里云通义千问	中文强，兼顾英文	0.5B ~ 72B	中文能力极强，Qwen1.5 开源，支持多模态
Baichuan 2	百川智能	中文优化	7B / 13B	商业/研究可用，API 接口友好
InternLM / InternLM2	商汤 + 上交	中文优，推理快	7B / 20B	InternLM2 引入 MoE，推理效率高
Yi	01.AI（王慧文）	中文 + 英文	6B / 34B	Yi-34B 是当前顶级中文模型之一
Mistral / Mixtral	Mistral.ai（法国）	英语主导	7B / 12.9B (MoE)	极高性价比，推理快，非常热门
Gemma	Google	英语强	2B / 7B	使用 Apache 2 许可，研究友好
Phi-2 / Phi-3	微软	小模型	2.7B / 4.2B	教育、推理快，适合嵌入式
OpenChat / ChatGLM3	OpenBMB / 智谱AI	中文对话优化	6B / 32B	ChatGLM 系列开源生态良好

⚙️ 二、主流开源推理框架（Inference Engines）

名称	语言/实现	支持硬件	特点
vLLM	Python / CUDA / Triton	GPU（A10、A100、4090 等）	高并发低延迟，生产级部署首选
llama.cpp	C++	CPU / Apple M 系列 / GPU	轻量、支持量化 `.gguf` 格式，能跑在树莓派上
Ollama	Rust / C++ 封装	CPU / M 系列 GPU	llama.cpp 的高级封装，一行命令启动
TGI (Text Generation Inference)	HuggingFace	GPU	Transformers 官方部署工具，支持 Batching、CUDA
FasterTransformer	NVIDIA	GPU	强调 Transformer 高效并行，支持 INT8/FP16
TensorRT-LLM	NVIDIA	GPU (A100/H100)	超高性能推理，适合部署 LLaMA-3 等模型
MLC LLM	TVM 项目	CPU / GPU / iOS / Android	编译到浏览器、iPhone、本地设备
DeepSpeed-MII	Microsoft	GPU	深度优化并行推理（基于 DeepSpeed）
Exllama / Exllamav2	C++/CUDA	GPU	适用于量化模型（4-bit 推理超快）
ctransformers	Python 绑定 llama.cpp	CPU / GPU	在 Python 中直接跑 gguf 模型，适合小项目

📌 补充：工具生态

工具	用途
transformers	HuggingFace 模型加载和训练工具
AutoGPTQ	GPTQ 量化工具，适配 vLLM、Transformers
text-generation-webui	WebUI 管理/测试各种本地模型（支持 gguf / HF 模型）
LMDeploy	商汤开发的 LLM 部署工具，支持 InternLM 系列
LangChain / LlamaIndex	构建基于 LLM 的 RAG 检索系统

✅ 你可以根据用途选择：

你要做什么？	推荐模型 + 推理框架
本地跑中文对话	Qwen1.5 + Ollama / llama.cpp
服务器部署并发服务	LLaMA3/Qwen + vLLM
快速试验不同模型	text-generation-webui + GGUF 模型
移动端部署	MLC LLM + Phi-2 / Tiny LLM
精准控制上下文 / Token 利用率	vLLM（PagedAttention 优化）

如果你告诉我你电脑或服务器的配置（CPU/GPU/内存），我可以给你推荐最适合你机器的模型+框架组合。是否需要？

上一篇：要不要选计算机？写给不知道怎么选专业的同学

下一篇：【一文看懂多模块Bean初始化难题】Spring Boot多模块项目中的Bean初始化难题：包名不一致的优雅解决方案

热门推荐

01GitHub 镜像站点 02UV安装并设置国内源 03BongoCat - 跨平台键盘猫动画工具 04【超详细教程】手把手教你从微软官网免费下载Windows 10官方原版ISO镜像（2025最新版）05安娜的档案(Anna’s Archive) 镜像网站/国内最新可访问入口（持续更新）06本地部署阿里最新开源的Z-Image 07Linux下V2Ray安装配置指南 08Meta第三代“分割一切”模型——SAM 3本地部署教程：首支持文本提示分割，400万概念、30毫秒响应，检测分割追踪一网打尽 09Labelme从安装到标注：零基础完整指南 10【保姆级教程】免费使用Gemini3的5种方法！免翻墙/国内直连