开源模型选型

一、轻量开源大模型对比

本次选型针对 7B 级别的轻量开源大模型，选取 Llama2-7B、Qwen-2-7B、Mistral-7B 三款主流模型进行对比分析。

1.1 核心参数对比表

|------------|-------|-------------------|----------------------------------|---------------------|--------------------------------------------|
| 模型名称 | 参数量 | 上下文长度 | 硬件要求（CPU） | 硬件要求（GPU） | 开源许可 |
| Llama2-7B | 7B | 4096（可扩展至 32K） | 最低 16GB 内存，推荐 32GB；8 核以上 CPU | 最低 8GB 显存，推荐 10GB+ | Llama 2 Community License（可商用，需遵循 Meta 条款） |
| Qwen-2-7B | 7.07B | 32K（最高支持 128K 扩展） | 最低 8GB 内存（量化版），推荐 16GB；8 核以上 CPU | 最低 6GB 显存，推荐 8GB+ | Apache 2.0（完全商用友好） |
| Mistral-7B | 7B | 32768（32K） | 最低 16GB 内存，推荐 32GB；8 核以上 CPU | 最低 12GB 显存，推荐 16GB+ | Apache 2.0（完全商用友好） |

1.2 各模型特点

Llama2-7B：Meta 推出的开源模型，生态完善，社区支持丰富，拥有大量的微调版本和应用工具。训练数据以英文为主，中文支持依赖社区优化版本，上下文长度基础为 4096，可扩展至 32K。
Qwen-2-7B：阿里云通义千问团队开发的模型，中文语料占比 40%+，Tokenizer 适配 UTF-8，中文支持效果优秀。上下文长度原生支持 32K，最高可扩展至 128K，开源许可宽松，适合中文场景商用。
Mistral-7B：法国 Mistral AI 推出的模型，推理速度较快，上下文长度原生支持 32K，训练数据量达 800B tokens，通用任务表现优秀，但中文支持相对较弱。

二、模型权重格式介绍

2.1 FP32/FP16/GGUF 格式说明

|------|---------|--------------------------------------------------------------|-------------------------|
| 格式 | 精度 | 特点 | 7B 模型文件大小 |
| FP32 | 32 位浮点数 | 全精度，精度最高，文件体积最大，适合训练或高精度推理 | 约 28GB |
| FP16 | 16 位浮点数 | 半精度，平衡精度与文件大小，是 LLM 训练常用格式，推理性能较好 | 约 14GB |
| GGUF | 支持多精度量化 | 专为 llama.cpp 设计的格式，支持量化压缩，针对 CPU 推理优化，加载速度快，单文件部署，包含模型所有必要信息 | 量化后 2.5GB-7GB（根据量化级别不同） |

2.2 llama.cpp 的权重要求

llama.cpp 是一款针对 CPU 和轻量 GPU 优化的大模型推理框架，其对权重格式的要求如下：

仅支持 GGUF 格式的模型权重，不再支持旧的 GGML 格式。
支持 GGUF 格式下的多种精度类型，包括 FP32、FP16 以及量化格式（Q2_K、Q3_K_M、Q4_K_M、Q5_K_M、Q8_0 等）。
量化格式的 GGUF 文件可大幅降低内存占用，例如 Q4_K_M 量化的 7B 模型仅需约 3.3GB 内存，适合 CPU 本地部署。

三、模型选型结论

4.1 选型理由

本次选型优先推荐Qwen-2-7B，理由如下：

中文支持优秀：训练数据中中文语料占比高，Tokenizer 适配 UTF-8，在中文任务上表现优于另外两款模型。
开源许可友好：采用 Apache 2.0 许可，完全商用友好，无需申请授权，适合中小企业和个人开发者使用。
硬件要求低：CPU 部署最低仅需 8GB 内存，符合用户 "CPU 版至少 8G 内存" 的硬件条件，适配性更强。
上下文长度优势：原生支持 32K 上下文长度，最高可扩展至 128K，适合长文本处理任务。

4.2 适配硬件的部署建议

CPU 部署：下载 Qwen-2-7B 的 GGUF 量化版本（推荐 Q4_K_M 量化），使用 llama.cpp 框架部署，8GB 内存即可运行，16GB 内存可获得更流畅的体验。
GPU 部署：若有 6GB 以上显存的 GPU，可下载 FP16 精度的模型，使用 transformers 或 vllm 框架部署，推理速度更快。
存储要求：GGUF 量化版模型仅需约 3.3GB 存储空间，FP16 版本约 14GB，建议使用 NVMe SSD 存储，提升模型加载速度。