一、什么是大模型
大模型 (Large Language Model,简称 LLM)是指具有海量参数 (通常在数十亿到数千亿级别)、通过大规模文本数据训练的深度学习模型,能够理解和生成自然语言,完成问答、写作、编程、推理等多种任务。
简单理解:它是一个"读过无数本书"的AI大脑,能根据上下文进行智能对话和内容创作。
二、开源的大模型有哪些
2.1 DeepSeek Janus
DeepSeek Janus 是由 DeepSeek AI 推出的开源多模态大语言模型(MLLM),它通过一个创新的自回归框架,统一了图像理解和生成任务,旨在解决传统多模态模型在任务冲突上的局限性。
Janus 的核心是一个自回归 Transformer,基于 DeepSeek-LLM-1.3B(13 亿参数)。
"自回归"是指模型在生成文本时,一个字一个字地预测下一个词 ,就像写诗一样:每写出一个字,就根据前面所有字去猜下一个最可能的字。
Transformer 是一种神经网络结构
其独特之处在于将视觉编码分为两条独立路径,同时保持单一 Transformer 处理所有任务
该模型默认上下文长度为4096Tokens
2.2Phi-4 14B
Phi-4 是微软研究院于 2024 年 12 月发布的开源大型语言模型(LLM),旨在++推动小型语言模型(SLM)在复杂推理任务中的性能边界++,参数规模为 140 亿
它是 Phi 系列的最新成员,专注于复杂推理任务,在 STEM(科学、技术、工程、数学)相关任务中表现出色,尤其是在数学竞赛问题和编码基准测试中。
技术报告:https://www.microsoft.com/en-us/research/publication/phi-4-technical-report/
该模型默认上下文长度为4096Tokens
2.3LlAMA.CPP
llama.cpp 使用的是 C 语言写的机器学习张量库 ggml
llama.cpp 提供了模型量化的工具
该项目的最大亮点在于 无需 GPU 也能运行 LLaMA 模型。与传统框架不同,llama.cpp 构建了一个独立的生态系统,秉持轻量化设计理念,追求最小的外部依赖、多平台兼容性和广泛的硬件适配。
-
轻量化实现:纯 C/C++ 实现:无任何外部依赖,运行高效且易于移植。
-
硬件适配性强:支持各种主流硬件平台,实现真正的跨平台兼容
-
优化推理性能
-
多种量化方案:降低内存占用,显著提升推理速度。
-
CPU+GPU 混合推理:灵活利用 CPU 和 GPU 资源,即便模型大小超出显存容量,也能高效运行。
2.4Llama 3
Llama 3 是由 Meta AI 团队开发的大型语言模型(LLM)系列,作为 Llama 2 的继任者,于 2024 年 4 月正式发布。该系列旨在推动自然语言处理研究的边界,提供高效、开源的解决方案,适用于学术研究和部分商业场景。Llama 3 在模型架构、训练数据和后处理技术上进行了显著优化,相较于前代版本在性能、可扩展性和多语言支持上均有提升。
该模型默认上下文长度为8K(可扩展至 128K)Tokens
2.5Qwen系列
Qwen(中文名:通义千问)是由阿里巴巴云 Qwen 团队开发的大型语言模型(LLM)和多模态模型系列,旨在为自然语言处理、代码生成、多模态理解等领域提供高效、开源的解决方案。自初代 Qwen 发布以来,该系列经历了多次迭代,逐步扩展到包括 Qwen2、Qwen2.5,以及专门针对特定任务的 Qwen2.5-Coder、QwQ、Qwen2.5-VL(2VL)和 QvQ 等模型。这些模型在预训练数据规模、任务性能和应用场景上均有显著提升,支持开发者在多种场景下构建智能应用。
-
**Qwen2.5-Coder(代码专用):**2024年11月12日推出,覆盖0.5B、1.5B、3B、7B、14B 和 32B参数的模型,支持92种编程语言,适用于代码生成、修复、推理、代码审查等应用场景,支持 128K token 的上下文,适合处理大型代码库。
-
**QwQ-32B(复杂推理):**2024年11月29日推出的实验性语言模型,专注于复杂推理任务,灵感来源于 OpenAI 的 o1 模型,通过鼓励模型在生成过程中"反思"和"质疑",并通过深度探索和大量试验优化了数学和编程推理能力。
-
**Qwen2-VL(多模态):**2024年12月发布的图像、视频识别的多模态大模型,参数包括 3B、7B 和 72B,尤其在物体识别与光学文字识别(OCR)方面表现卓越。Qwen2VL 支持识别长度超过 20 分钟的视频内容,展现出卓越的性能与广泛的应用落地潜力。
-
**QvQ-72B-Preview(视觉推理):**2024 年 12 月发布的实验性视觉模型,专注于增强视觉推理能力。它基于 Qwen2.5-VL 开发,针对数学、科学和视觉任务进行了优化。
2.6 DeepSeek R1
DeepSeek R1 是一款由 DeepSeek AI 开发的开源大型语言模型(LLM),是 DeepSeek AI 在其 DeepSeek-V3 基础上的进一步发展,专注于推理任务。旨在提升数学、编码和一般推理能力,特别适合需要复杂推理的应用场景。
它采用 Mixture of Experts (MoE) 架构,总参数为 6710 亿,激活参数为 370 亿,每次仅激活部分参数以提高计算效率。
该模型默认上下文长度为128,000Tokens
2.7DeepSeek V3
DeepSeek V3 是一款由 DeepSeek AI 开发的开源大型语言模型(LLM),于 2024 年 12 月发布,专注于数学和编码任务。研究表明,DeepSeek V3 在 MATH 500 和 Codeforces 等基准测试中表现出色,数学问题解决能力约 95%,编码任务表现接近人类顶尖水平。它与闭源模型如 OpenAI 的 GPT-4o 竞争,特别适合需要复杂推理的开发场景。
DeepSeek V3 采用 Mixture of Experts (MoE) 架构,与 DeepSeek-V2 类似。这种架构允许模型拥有 6710 亿总参数,但每次仅激活 370 亿参数,从而实现高效计算
该模型默认上下文长度为128,000Tokens
2.8 DeepSeek-OCR
DeepSeek-OCR 是一个开源的多模态 AI 模型,由 DeepSeek AI 于 2025 年 10 月 21 日发布,旨在通过视觉感知压缩文本输入来革新长上下文处理。该模型迅速成为 AI 社区的焦点,已在 GitHub 上获得广泛关注(截至发布后两天,支持数千开发者)。它支持 Python 和其他语言的集成,适用于构建高效的文档处理、数据提取和 LLM 增强应用。
DeepSeek-OCR 的核心目标是解决 LLM 在处理长上下文时的 token 限制和计算开销问题。尽管 LLM 在生成响应和任务自动化方面表现出色,但传统方法往往受限于高 token 消耗,导致成本增加和效率低下。DeepSeek-OCR 通过引入"视觉-文本压缩"范式,实现了显著的 token 减少(7-20 倍),同时保持高准确性。
2.9 GPT-OSS
OpenAI 于 2025 年 8 月 5 日发布了两个开源权重(open-weight)语言模型:gpt-oss-120b 和 gpt-oss-20b。这是 OpenAI 自 2019 年 GPT-2 以来首次公开模型权重,标志着公司回归开源 AI 根源的重要一步。
这两个模型是为开发者设计的,允许在本地或私有基础设施上运行,适合需要隐私保护或低延迟的应用。它们性能强劲,支持长上下文和工具使用,是开源 AI 社区的重要补充。
|-------------|-------------------|----------------------|
| 参数 | gpt-oss-120b | gpt-oss-20b |
| 总参数量 | 117B | 21B |
| 活跃参数量 | 5.1B per token | 3.6B per token |
| 支持上下文长度 | 128k | 128k |
| 硬件要求 | 单个 80 GB GPU | 16 GB 内存(可在消费级设备上运行) |
| 性能基准 | 接近 OpenAI o4-mini | 接近 OpenAI o3-mini |
| 许可证 | Apache 2.0 | Apache 2.0 |
两个模型均基于 Transformer 架构,使用混合专家(Mixture-of-Experts, MoE)技术来减少活跃参数量,从而提高推理效率。MoE 允许模型在处理输入时仅激活部分参数,这在推理阶段显著降低了计算需求。
模型基于主要是英文的文本数据集训练,重点关注 STEM(科学、技术、工程、数学)、编程和通用知识领域。