截至 2025 年 2 月,开源大型语言模型 (LLM) 的格局已发生重大变化。 以下是前 11 个开源 LLM 的更新列表先关注收藏再看
,包括其发布日期、参数大小和主要用例
让我们了解开放模型与开源语言模型
语言模型可分为三类:专有模型、开放模型(或开放权重)和开源模型。
-
专有模型(例如 OpenAI 的 GPT-4 和 Anthropic 的 Claude 3 Opus)只能通过付费 API 或 Web 界面访问。
-
开放模型(例如 Meta 的 Llama 2 或 Mistral 的 Mixtral 8x7B)的模型架构和权重在互联网上公开可用。
-
最后,开源模型(例如 AI2 的 OLMo)提供完整的预训练数据、训练代码、评估代码和模型权重,使学者和研究人员能够重新创建和深入分析模型。
开源大模型简介
开源 LLM 是免费提供的模型,在大量数据集上进行训练。这些模型可针对各种应用进行定制和扩展,从内容生成到对话式 AI。
1.LLaMA 3.1
LLaMA 3.1 由 Meta 创建,是一个功能强大且适应性强的大型语言模型,由于具有多种尺寸,旨在满足一系列计算要求。
开发者:Meta AI
• 发布日期:2024 年 7 月 23 日
• 参数大小:4050 亿
• 用例:大型企业应用、高级研究和复杂问题解决。
• 应用程序:
- 企业 AI:为大型客户支持系统、文档摘要和知识管理提供支持。
- 科学研究:协助进行数据分析、假设生成和文献综述。
- 内容创作:生成高质量、长篇内容,如报告、文章和技术文档_。_
有关其技术架构的详细了解,请参阅论文《Llama 3 Herd of Models》
2. DeepSeek-R1
开发者:DeepSeek
• 发布日期:2025 年 1 月
• 参数大小:6710 亿
• 用例:注重效率和可扩展性的通用 AI 应用程序。
• 应用程序:
- 聊天机器人:为客户服务或个人助理部署对话式人工智能。
- 教育:提供辅导、回答问题和生成教育内容。
- 数据分析:从结构化和非结构化数据中提取见解。
有关其技术架构的详细信息,请参阅此处的论文
3. Qwen 2.5 72B
开发者:阿里巴巴
• 发布日期:2024 年 9 月 19 日
• 参数大小:720 亿
• 用例:多语言和多模式应用程序。
• 应用程序:
- 多语言支持:翻译和生成多种语言的内容。
- 多模式任务:结合文本和图像理解,用于视觉问答等应用。
- 全球企业:支持国际团队进行语言和文化适应。
4.# Mistral 7B
由 Mistral AI 开发
• 发布日期:2023 年 9 月 27 日
• 参数大小:73 亿
• 用例:计算资源有限的轻量级、高效应用程序。
• 应用程序:
- 边缘设备:在处理能力有限的设备上运行,如智能手机或物联网设备。
- 个人助理:为个人使用提供快速、情境感知的响应。
- 原型设计:无需繁重的基础设施即可测试和开发 AI 应用程序。
5.# Falcon 180B
开发者:技术创新研究所 (TII)
• 发布日期:2024 年 9 月
• 参数大小:1800 亿
• 用例:需要深入理解和推理的高性能任务。
• 应用程序:
- 财务分析:分析市场趋势,生成报告并提供投资见解。
- 法律技术:协助进行合同分析,法律研究和合规性检查。
- 医疗保健:支持医疗诊断,患者互动和研究。
6.# Llama 3.1 70B
开发者:Meta AI
• 发布日期:2024 年 7 月 23 日
• 参数大小:700 亿
• 用例:性能与资源效率平衡的中大型应用程序。
• 应用程序:
- 电子商务:个性化产品推荐并改进搜索功能。
- 内容审核:自动检测不当或有害内容。
- 创意写作:协助作者创作故事、塑造人物形象和编辑。
7.DeepSeek-MoE 16B
由 DeepSeek 开发
• 发布日期:2024 年 1 月 9 日
• 参数大小:160 亿(每个代币激活 27 亿)
• 用例:利用混合专家 (MoE) 架构的专门任务。
• 应用程序:
- 特定领域人工智能:为医疗、金融或法律等行业量身定制响应。
- 高效训练:减少针对特定数据集进行微调的计算成本。
- 定制解决方案:构建需要多领域专业知识的人工智能系统。
8.PaLM 2
开发者:Google
• 发布日期:2023 年 5 月
• 参数大小:3400 亿
• 用例:具有高级推理能力的多模式和多语言应用程序。
• 应用程序:
- 多模态人工智能:结合文本、图像和音频理解,用于虚拟助手等应用。
- 语言翻译:为全球企业提供实时翻译和本地化服务。
- 研发:支持尖端人工智能研究和实验。
9.Grok-1
由 xAI 开发
• 发布日期:2023 年 11 月
• 参数大小:3140 亿
• 用例:需要幽默、创造力和非传统思维的应用程序。
• 应用程序:
- 娱乐:为社交媒体生成笑话、故事和引人入胜的内容。
- 创意产业:协助编写剧本、游戏设计和营销活动。
- 个性化人工智能:为用户提供独特的、类似人类的互动。
10.# Llama 3.1 8B
开发者:Meta AI
• 发布日期:2024 年 7 月 23 日
• 参数大小:80 亿
• 用例:资源要求最低的轻量级应用程序。
• 应用程序:
- 移动应用程序:将 AI 集成到应用程序中以进行设备上处理。
- 教育:为学生提供轻量级辅导和问答系统。
- 小型企业:为客户支持和内容生成提供经济实惠的 AI 解决方案。
11.# Mistral Large 2
开发者:Mistral AI
• 发布日期:2024 年 7 月 24 日
• 参数大小:1230 亿
• 用例:注重可扩展性的高性能通用应用程序。
• 应用程序:
- 企业解决方案:处理大规模数据和决策。
- 人工智能研究:为开发新的人工智能模型和技术奠定基础。
- 内容生成:为营销和媒体制作高质量、情境感知的内容。