当然可以!下面是一个系统性的列表,按 开源大模型(LLM) 和 推理框架 两大类列出,并配上简要说明。
🧠 一、开源大语言模型(LLMs)
名称 | 发布者 | 语言能力 | 模型大小 | 特点 |
---|---|---|---|---|
LLaMA 2 / 3 | Meta | 英文强,少量多语 | 7B/13B/70B | 非商业使用需申请;社区生态广泛 |
Qwen / Qwen1.5 | 阿里云通义千问 | 中文强,兼顾英文 | 0.5B ~ 72B | 中文能力极强,Qwen1.5 开源,支持多模态 |
Baichuan 2 | 百川智能 | 中文优化 | 7B / 13B | 商业/研究可用,API 接口友好 |
InternLM / InternLM2 | 商汤 + 上交 | 中文优,推理快 | 7B / 20B | InternLM2 引入 MoE,推理效率高 |
Yi | 01.AI(王慧文) | 中文 + 英文 | 6B / 34B | Yi-34B 是当前顶级中文模型之一 |
Mistral / Mixtral | Mistral.ai(法国) | 英语主导 | 7B / 12.9B (MoE) | 极高性价比,推理快,非常热门 |
Gemma | 英语强 | 2B / 7B | 使用 Apache 2 许可,研究友好 | |
Phi-2 / Phi-3 | 微软 | 小模型 | 2.7B / 4.2B | 教育、推理快,适合嵌入式 |
OpenChat / ChatGLM3 | OpenBMB / 智谱AI | 中文对话优化 | 6B / 32B | ChatGLM 系列开源生态良好 |
⚙️ 二、主流开源推理框架(Inference Engines)
名称 | 语言/实现 | 支持硬件 | 特点 |
---|---|---|---|
vLLM | Python / CUDA / Triton | GPU(A10、A100、4090 等) | 高并发低延迟,生产级部署首选 |
llama.cpp | C++ | CPU / Apple M 系列 / GPU | 轻量、支持量化 .gguf 格式,能跑在树莓派上 |
Ollama | Rust / C++ 封装 | CPU / M 系列 GPU | llama.cpp 的高级封装,一行命令启动 |
TGI (Text Generation Inference) | HuggingFace | GPU | Transformers 官方部署工具,支持 Batching、CUDA |
FasterTransformer | NVIDIA | GPU | 强调 Transformer 高效并行,支持 INT8/FP16 |
TensorRT-LLM | NVIDIA | GPU (A100/H100) | 超高性能推理,适合部署 LLaMA-3 等模型 |
MLC LLM | TVM 项目 | CPU / GPU / iOS / Android | 编译到浏览器、iPhone、本地设备 |
DeepSpeed-MII | Microsoft | GPU | 深度优化并行推理(基于 DeepSpeed) |
Exllama / Exllamav2 | C++/CUDA | GPU | 适用于量化模型(4-bit 推理超快) |
ctransformers | Python 绑定 llama.cpp | CPU / GPU | 在 Python 中直接跑 gguf 模型,适合小项目 |
📌 补充:工具生态
工具 | 用途 |
---|---|
transformers | HuggingFace 模型加载和训练工具 |
AutoGPTQ | GPTQ 量化工具,适配 vLLM、Transformers |
text-generation-webui | WebUI 管理/测试各种本地模型(支持 gguf / HF 模型) |
LMDeploy | 商汤开发的 LLM 部署工具,支持 InternLM 系列 |
LangChain / LlamaIndex | 构建基于 LLM 的 RAG 检索系统 |
✅ 你可以根据用途选择:
你要做什么? | 推荐模型 + 推理框架 |
---|---|
本地跑中文对话 | Qwen1.5 + Ollama / llama.cpp |
服务器部署并发服务 | LLaMA3/Qwen + vLLM |
快速试验不同模型 | text-generation-webui + GGUF 模型 |
移动端部署 | MLC LLM + Phi-2 / Tiny LLM |
精准控制上下文 / Token 利用率 | vLLM(PagedAttention 优化) |
如果你告诉我你电脑或服务器的配置(CPU/GPU/内存),我可以给你推荐最适合你机器的模型+框架组合。是否需要?