列举开源的模型和推理框架

当然可以!下面是一个系统性的列表,按 开源大模型(LLM)推理框架 两大类列出,并配上简要说明。


🧠 一、开源大语言模型(LLMs)

名称 发布者 语言能力 模型大小 特点
LLaMA 2 / 3 Meta 英文强,少量多语 7B/13B/70B 非商业使用需申请;社区生态广泛
Qwen / Qwen1.5 阿里云通义千问 中文强,兼顾英文 0.5B ~ 72B 中文能力极强,Qwen1.5 开源,支持多模态
Baichuan 2 百川智能 中文优化 7B / 13B 商业/研究可用,API 接口友好
InternLM / InternLM2 商汤 + 上交 中文优,推理快 7B / 20B InternLM2 引入 MoE,推理效率高
Yi 01.AI(王慧文) 中文 + 英文 6B / 34B Yi-34B 是当前顶级中文模型之一
Mistral / Mixtral Mistral.ai(法国) 英语主导 7B / 12.9B (MoE) 极高性价比,推理快,非常热门
Gemma Google 英语强 2B / 7B 使用 Apache 2 许可,研究友好
Phi-2 / Phi-3 微软 小模型 2.7B / 4.2B 教育、推理快,适合嵌入式
OpenChat / ChatGLM3 OpenBMB / 智谱AI 中文对话优化 6B / 32B ChatGLM 系列开源生态良好

⚙️ 二、主流开源推理框架(Inference Engines)

名称 语言/实现 支持硬件 特点
vLLM Python / CUDA / Triton GPU(A10、A100、4090 等) 高并发低延迟,生产级部署首选
llama.cpp C++ CPU / Apple M 系列 / GPU 轻量、支持量化 .gguf 格式,能跑在树莓派上
Ollama Rust / C++ 封装 CPU / M 系列 GPU llama.cpp 的高级封装,一行命令启动
TGI (Text Generation Inference) HuggingFace GPU Transformers 官方部署工具,支持 Batching、CUDA
FasterTransformer NVIDIA GPU 强调 Transformer 高效并行,支持 INT8/FP16
TensorRT-LLM NVIDIA GPU (A100/H100) 超高性能推理,适合部署 LLaMA-3 等模型
MLC LLM TVM 项目 CPU / GPU / iOS / Android 编译到浏览器、iPhone、本地设备
DeepSpeed-MII Microsoft GPU 深度优化并行推理(基于 DeepSpeed)
Exllama / Exllamav2 C++/CUDA GPU 适用于量化模型(4-bit 推理超快)
ctransformers Python 绑定 llama.cpp CPU / GPU 在 Python 中直接跑 gguf 模型,适合小项目

📌 补充:工具生态

工具 用途
transformers HuggingFace 模型加载和训练工具
AutoGPTQ GPTQ 量化工具,适配 vLLM、Transformers
text-generation-webui WebUI 管理/测试各种本地模型(支持 gguf / HF 模型)
LMDeploy 商汤开发的 LLM 部署工具,支持 InternLM 系列
LangChain / LlamaIndex 构建基于 LLM 的 RAG 检索系统

✅ 你可以根据用途选择:

你要做什么? 推荐模型 + 推理框架
本地跑中文对话 Qwen1.5 + Ollama / llama.cpp
服务器部署并发服务 LLaMA3/Qwen + vLLM
快速试验不同模型 text-generation-webui + GGUF 模型
移动端部署 MLC LLM + Phi-2 / Tiny LLM
精准控制上下文 / Token 利用率 vLLM(PagedAttention 优化)

如果你告诉我你电脑或服务器的配置(CPU/GPU/内存),我可以给你推荐最适合你机器的模型+框架组合。是否需要?

相关推荐
知来者逆2 小时前
视觉语言模型应用开发——Qwen 2.5 VL模型视频理解与定位能力深度解析及实践指南
人工智能·语言模型·自然语言处理·音视频·视觉语言模型·qwen 2.5 vl
闲看云起3 小时前
从BERT到T5:为什么说T5是NLP的“大一统者”?
人工智能·语言模型·transformer
学历真的很重要4 小时前
Claude Code Windows 原生版安装指南
人工智能·windows·后端·语言模型·面试·go
eqwaak05 小时前
Matplotlib 动态显示详解:技术深度与创新思考
网络·python·网络协议·tcp/ip·语言模型·matplotlib
算法打盹中8 小时前
基于树莓派与Jetson Nano集群的实验边缘设备上视觉语言模型(VLMs)的性能评估与实践探索
人工智能·计算机视觉·语言模型·自然语言处理·树莓派·多模态·jetson nano
小杨勇敢飞12 小时前
UNBIASED WATERMARK:大语言模型的无偏差水印
人工智能·语言模型·自然语言处理
m0_6038887112 小时前
Delta Activations A Representation for Finetuned Large Language Models
人工智能·ai·语言模型·自然语言处理·论文速览
SEO_juper18 小时前
大型语言模型SEO(LLM SEO)完全手册:驾驭搜索新范式
人工智能·语言模型·自然语言处理·chatgpt·llm·seo·数字营销
Gyoku Mint19 小时前
提示词工程(Prompt Engineering)的崛起——为什么“会写Prompt”成了新技能?
人工智能·pytorch·深度学习·神经网络·语言模型·自然语言处理·nlp
算法打盹中1 天前
SimLingo:纯视觉框架下的自动驾驶视觉 - 语言 - 动作融合模型
人工智能·机器学习·计算机视觉·语言模型·自动驾驶