一、预训练框架
1. 大规模分布式训练框架
框架名称 | 核心能力 | GitHub地址 |
---|---|---|
Megatron-LM | 3D并行训练、FlashAttention支持、Transformer架构优化(NVIDIA生态) | NVIDIA/Megatron-LM |
DeepSpeed | ZeRO优化系列、3D并行、RLHF全流程支持(微软生态) | microsoft/DeepSpeed |
ColossalAI | 多维并行、Gemini内存管理、自动并行策略(国产最优方案) | hpcaitech/ColossalAI |
BMTrain | 中文模型优化、ZeRO实现、显存优化(OpenBMB生态) | OpenBMB/BMTrain |
Alpa | 自动并行训练、JAX/TPU原生支持(学术研究友好) | alpa-projects/alpa |
FastMoE | MoE架构专用、动态路由优化(混合专家模型首选) | laekov/fastmoe |
2. 通用训练框架
框架名称 | 核心能力 | GitHub地址 |
---|---|---|
Fairseq | 序列模型优化、多任务支持(Meta官方框架) | facebookresearch/fairseq |
PaddlePaddle | 全栈支持、产业级优化(百度飞桨生态) | PaddlePaddle/Paddle |
MindSpore | 端边云协同、自动并行(华为昇腾生态) | mindspore-ai/mindspore |
OneFlow | 分布式训练、静态图优化(国产高性能框架) | Oneflow-Inc/oneflow |
JAX/Flax | 函数式编程、TPU原生优化(Google科研生态) | google/jax |
3. 预训练工具链
工具名称 | 核心能力 | GitHub地址 |
---|---|---|
Transformers | 集成数万预训练模型、多模态支持(Hugging Face生态核心) | huggingface/transformers |
ModelScope | 模型仓库+训练平台(阿里巴巴多模态生态) | modelscope/modelscope |
FairScale | 分布式训练、显存优化(Meta官方工具) | facebookresearch/fairscale |
二、微调框架
1. 全参数微调框架
框架名称 | 核心能力 | GitHub地址 |
---|---|---|
LitGPT | FSDP支持、量化训练、全流程管理(Lightning AI官方方案) | Lightning-AI/lit-gpt |
DeepSpeed-Chat | RLHF全流程优化、混合并行(微软对话模型专用) | microsoft/DeepSpeed-Chat |
MosaicML | 算法优化、云端训练(商业级SaaS方案) | mosaicml/composer |
2. 参数高效微调(PEFT)
框架名称 | 核心能力 | GitHub地址 |
---|---|---|
PEFT | LoRA/QLoRA/AdaLoRA、Prefix Tuning(Hugging Face官方库) | huggingface/peft |
OpenDelta | Delta Tuning、多模态适配器(清华NLP组) | thunlp/OpenDelta |
S-LoRA | 服务化LoRA、动态批处理(Stanford优化方案) | S-LoRA/S-LoRA |
3. 指令微调框架
框架名称 | 核心能力 | GitHub地址 |
---|---|---|
LLaMA-Factory | 多模型支持、RLHF集成(社区最活跃框架) | hiyouga/LLaMA-Factory |
Chinese-LLaMA-Alpaca | 中文指令优化、词表扩展(中文领域首选) | ymcui/Chinese-LLaMA-Alpaca |
TRL | RLHF训练、PPO/DPO实现(Hugging Face官方方案) | huggingface/trl |
4. 量化训练框架
框架名称 | 核心能力 | GitHub地址 |
---|---|---|
GPTQ | 低比特量化、训练后优化(IST-DASLab方案) | IST-DASLab/gptq |
QLoRA | 量化LoRA、显存占用优化(华盛顿大学方案) | artidoro/qlora |
BitsAndBytes | 8bit优化、量化训练(Tim Dettmers主导) | TimDettmers/bitsandbytes |
三、支撑工具链
1. 推理优化框架
框架名称 | 核心能力 | GitHub地址 |
---|---|---|
vLLM | PagedAttention、高吞吐推理(工业级首选) | vllm-project/vllm |
TensorRT-LLM | NVIDIA硬件优化、低延迟推理(企业级部署) | NVIDIA/TensorRT-LLM |
llama.cpp | CPU推理、GGUF量化(边缘计算首选) | ggerganov/llama.cpp |
2. 评估与基准测试
框架名称 | 核心能力 | GitHub地址 |
---|---|---|
OpenCompass | 多维度评估、性能分析(上海AI Lab) | InternLM/opencompass |
LM-Evaluation-Harness | 标准测试集、跨模型对比(EleutherAI) | EleutherAI/lm-evaluation-harness |
3. 数据处理工具
工具名称 | 核心能力 | GitHub地址 |
---|---|---|
Datasets | 数据加载与预处理(Hugging Face生态) | huggingface/datasets |
WebDataset | 流式处理、超大规模数据支持 | webdataset/webdataset |
4. 分布式训练支持
框架名称 | 核心能力 | GitHub地址 |
---|---|---|
Ray | 资源调度、分布式计算(UC Berkeley方案) | ray-project/ray |
Horovod | 多框架支持、易用性优化(Uber开源) | horovod/horovod |
四、选型指南
预训练场景
- 超大规模训练:DeepSpeed(ZeRO优化) + Megatron-LM(模型并行)
- 国产化需求:ColossalAI(多维并行) + PaddlePaddle(产业级支持)
- 学术研究:JAX/Flax(函数式编程) + Fairseq(序列模型优化)
微调场景
- 参数高效:PEFT(LoRA/QLoRA) + OpenDelta(多任务适配)
- 中文优化:Chinese-LLaMA-Alpaca(指令微调) + ChatGLM-Tuning(清华方案)
- 工业级部署:vLLM(高吞吐) + TensorRT-LLM(NVIDIA硬件加速)
工具链补充
- 数据处理:Datasets(标准化) + WebDataset(流式处理)
- 量化压缩:GPTQ(训练后量化) + QLoRA(微调量化)
本清单覆盖 GitHub Star > 1k 的主流框架,按技术栈和场景分类,持续跟踪最新技术演进。
免责声明
本报告("LLM全栈框架完整分类清单(预训练+微调+工具链)")由[ViniJack.SJX] 根据公开可获得的信息以及作者的专业知识和经验撰写,旨在提供关于"LLM全栈框架完整分类清单(预训练+微调+工具链)"的分析和信息。
1. 信息准确性与完整性:
-
作者已尽最大努力确保报告中信息的准确性和完整性,但不对其绝对准确性、完整性或及时性做出任何明示或暗示的保证。
-
报告中的信息可能随时间推移而发生变化,作者不承担更新报告内容的义务。
-
报告中引用的第三方信息(包括但不限于网站链接、项目描述、数据统计等)均来自公开渠道,作者不对其真实性、准确性或合法性负责。
2. 报告用途与责任限制:
-
本报告仅供参考和学习之用,不构成任何形式的投资建议、技术建议、法律建议或其他专业建议。
-
读者应自行判断和评估报告中的信息,并根据自身情况做出决策。
-
对于因使用或依赖本报告中的信息而导致的任何直接或间接损失、损害或不利后果,作者不承担任何责任。
3. 技术使用与合规性:
-
本报告中提及的任何爬虫框架、工具或技术,读者应自行负责其合法合规使用。
-
在使用任何爬虫技术时,读者应遵守相关法律法规(包括但不限于数据隐私保护法、知识产权法、网络安全法等),尊重网站的服务条款和robots协议,不得侵犯他人合法权益。
-
对于因读者违反相关法律法规或不当使用爬虫技术而导致的任何法律责任或纠纷,作者不承担任何责任。
4. 知识产权:
-
本报告的版权归作者所有,未经作者书面许可,任何人不得以任何形式复制、传播、修改或使用本报告的全部或部分内容。
-
报告中引用的第三方内容,其知识产权归原作者所有。
5. 其他:
-
本报告可能包含对未来趋势的预测,这些预测基于作者的判断和假设,不构成任何形式的保证。
-
作者保留随时修改本免责声明的权利。
请在使用本报告前仔细阅读并理解本免责声明。如果您不同意本免责声明的任何条款,请勿使用本报告。