【AI学习1】了解开源大模型

一、什么是大模型

大模型 （Large Language Model，简称 LLM）是指具有海量参数 （通常在数十亿到数千亿级别）、通过大规模文本数据训练的深度学习模型，能够理解和生成自然语言，完成问答、写作、编程、推理等多种任务。
简单理解：它是一个"读过无数本书"的AI大脑，能根据上下文进行智能对话和内容创作。

二、开源的大模型有哪些

2.1 DeepSeek Janus

DeepSeek Janus 是由 DeepSeek AI 推出的开源多模态大语言模型（MLLM），它通过一个创新的自回归框架，统一了图像理解和生成任务，旨在解决传统多模态模型在任务冲突上的局限性。

Janus 的核心是一个自回归 Transformer，基于 DeepSeek-LLM-1.3B（13 亿参数）。
"自回归"是指模型在生成文本时，一个字一个字地预测下一个词 ，就像写诗一样：每写出一个字，就根据前面所有字去猜下一个最可能的字。
Transformer 是一种神经网络结构

其独特之处在于将视觉编码分为两条独立路径，同时保持单一 Transformer 处理所有任务

该模型默认上下文长度为4096Tokens

2.2Phi-4 14B

Phi-4 是微软研究院于 2024 年 12 月发布的开源大型语言模型（LLM），旨在++推动小型语言模型（SLM）在复杂推理任务中的性能边界++，参数规模为 140 亿

它是 Phi 系列的最新成员，专注于复杂推理任务，在 STEM（科学、技术、工程、数学）相关任务中表现出色，尤其是在数学竞赛问题和编码基准测试中。

技术报告：https://www.microsoft.com/en-us/research/publication/phi-4-technical-report/

该模型默认上下文长度为4096Tokens

2.3LlAMA.CPP

llama.cpp 使用的是 C 语言写的机器学习张量库 ggml

llama.cpp 提供了模型量化的工具

该项目的最大亮点在于 无需 GPU 也能运行 LLaMA 模型。与传统框架不同，llama.cpp 构建了一个独立的生态系统，秉持轻量化设计理念，追求最小的外部依赖、多平台兼容性和广泛的硬件适配。

轻量化实现：纯 C/C++ 实现：无任何外部依赖，运行高效且易于移植。
硬件适配性强：支持各种主流硬件平台，实现真正的跨平台兼容
优化推理性能

多种量化方案：降低内存占用，显著提升推理速度。
CPU+GPU 混合推理：灵活利用 CPU 和 GPU 资源，即便模型大小超出显存容量，也能高效运行。

2.4Llama 3

Llama 3 是由 Meta AI 团队开发的大型语言模型（LLM）系列，作为 Llama 2 的继任者，于 2024 年 4 月正式发布。该系列旨在推动自然语言处理研究的边界，提供高效、开源的解决方案，适用于学术研究和部分商业场景。Llama 3 在模型架构、训练数据和后处理技术上进行了显著优化，相较于前代版本在性能、可扩展性和多语言支持上均有提升。

该模型默认上下文长度为8K（可扩展至 128K）Tokens

2.5Qwen系列

Qwen（中文名：通义千问）是由阿里巴巴云 Qwen 团队开发的大型语言模型（LLM）和多模态模型系列，旨在为自然语言处理、代码生成、多模态理解等领域提供高效、开源的解决方案。自初代 Qwen 发布以来，该系列经历了多次迭代，逐步扩展到包括 Qwen2、Qwen2.5，以及专门针对特定任务的 Qwen2.5-Coder、QwQ、Qwen2.5-VL（2VL）和 QvQ 等模型。这些模型在预训练数据规模、任务性能和应用场景上均有显著提升，支持开发者在多种场景下构建智能应用。

**Qwen2.5-Coder（代码专用）：**2024年11月12日推出，覆盖0.5B、1.5B、3B、7B、14B 和 32B参数的模型，支持92种编程语言，适用于代码生成、修复、推理、代码审查等应用场景，支持 128K token 的上下文，适合处理大型代码库。
**QwQ-32B（复杂推理）：**2024年11月29日推出的实验性语言模型，专注于复杂推理任务，灵感来源于 OpenAI 的 o1 模型，通过鼓励模型在生成过程中"反思"和"质疑"，并通过深度探索和大量试验优化了数学和编程推理能力。
**Qwen2-VL（多模态）：**2024年12月发布的图像、视频识别的多模态大模型，参数包括 3B、7B 和 72B，尤其在物体识别与光学文字识别（OCR）方面表现卓越。Qwen2VL 支持识别长度超过 20 分钟的视频内容，展现出卓越的性能与广泛的应用落地潜力。
**QvQ-72B-Preview（视觉推理）：**2024 年 12 月发布的实验性视觉模型，专注于增强视觉推理能力。它基于 Qwen2.5-VL 开发，针对数学、科学和视觉任务进行了优化。

2.6 DeepSeek R1

DeepSeek R1 是一款由 DeepSeek AI 开发的开源大型语言模型（LLM），是 DeepSeek AI 在其 DeepSeek-V3 基础上的进一步发展，专注于推理任务。旨在提升数学、编码和一般推理能力，特别适合需要复杂推理的应用场景。

它采用 Mixture of Experts (MoE) 架构，总参数为 6710 亿，激活参数为 370 亿，每次仅激活部分参数以提高计算效率。

该模型默认上下文长度为128,000Tokens

2.7DeepSeek V3

DeepSeek V3 是一款由 DeepSeek AI 开发的开源大型语言模型（LLM），于 2024 年 12 月发布，专注于数学和编码任务。研究表明，DeepSeek V3 在 MATH 500 和 Codeforces 等基准测试中表现出色，数学问题解决能力约 95%，编码任务表现接近人类顶尖水平。它与闭源模型如 OpenAI 的 GPT-4o 竞争，特别适合需要复杂推理的开发场景。

DeepSeek V3 采用 Mixture of Experts (MoE) 架构，与 DeepSeek-V2 类似。这种架构允许模型拥有 6710 亿总参数，但每次仅激活 370 亿参数，从而实现高效计算

该模型默认上下文长度为128,000Tokens

2.8 DeepSeek-OCR

DeepSeek-OCR 是一个开源的多模态 AI 模型，由 DeepSeek AI 于 2025 年 10 月 21 日发布，旨在通过视觉感知压缩文本输入来革新长上下文处理。该模型迅速成为 AI 社区的焦点，已在 GitHub 上获得广泛关注（截至发布后两天，支持数千开发者）。它支持 Python 和其他语言的集成，适用于构建高效的文档处理、数据提取和 LLM 增强应用。

DeepSeek-OCR 的核心目标是解决 LLM 在处理长上下文时的 token 限制和计算开销问题。尽管 LLM 在生成响应和任务自动化方面表现出色，但传统方法往往受限于高 token 消耗，导致成本增加和效率低下。DeepSeek-OCR 通过引入"视觉-文本压缩"范式，实现了显著的 token 减少（7-20 倍），同时保持高准确性。

2.9 GPT-OSS

OpenAI 于 2025 年 8 月 5 日发布了两个开源权重（open-weight）语言模型：gpt-oss-120b 和 gpt-oss-20b。这是 OpenAI 自 2019 年 GPT-2 以来首次公开模型权重，标志着公司回归开源 AI 根源的重要一步。

这两个模型是为开发者设计的，允许在本地或私有基础设施上运行，适合需要隐私保护或低延迟的应用。它们性能强劲，支持长上下文和工具使用，是开源 AI 社区的重要补充。

|-------------|-------------------|----------------------|
| 参数 | gpt-oss-120b | gpt-oss-20b |
| 总参数量 | 117B | 21B |
| 活跃参数量 | 5.1B per token | 3.6B per token |
| 支持上下文长度 | 128k | 128k |
| 硬件要求 | 单个 80 GB GPU | 16 GB 内存（可在消费级设备上运行） |
| 性能基准 | 接近 OpenAI o4-mini | 接近 OpenAI o3-mini |
| 许可证 | Apache 2.0 | Apache 2.0 |

两个模型均基于 Transformer 架构，使用混合专家（Mixture-of-Experts, MoE）技术来减少活跃参数量，从而提高推理效率。MoE 允许模型在处理输入时仅激活部分参数，这在推理阶段显著降低了计算需求。

模型基于主要是英文的文本数据集训练，重点关注 STEM（科学、技术、工程、数学）、编程和通用知识领域。