1. MOE(Mixture of Experts,混合专家)
定义:
MOE 是一种模型架构设计策略,通过将模型划分为多个"专家子网络"(Experts),并在推理或训练时根据输入动态选择激活其中一部分专家,从而在不显著增加计算成本的前提下提升模型容量和性能。
核心思想:
- 模型包含多个"专家"(通常是前馈神经网络)。
- 一个"门控网络"(Gating Network)根据输入决定哪些专家被激活(例如 Top-K 专家)。
- 每次前向传播只使用部分专家,因此计算量可控 ,但参数量可以非常大。
优点:
- 高效扩展模型规模(如 Google 的 GLaM 模型有 1.2T 参数,但每次推理只用约 9B)。
- 提升模型在不同任务或领域上的专业化能力。
应用实例:
- Google GLaM
- Mixtral 8x7B(Mistral AI 发布的开源 MOE 模型,含 8 个专家,每次激活 2 个)
- DeepSeek-MoE
- Qwen-Max / Qwen-Plus(通义千问系列中的 MOE 版本)
✅ MOE 是一种模型结构标签,表示该模型采用了"混合专家"架构。
2. FIM(Fill-in-the-Middle,中间填充)
定义:
FIM 是一种训练数据格式或目标函数设计技巧 ,主要用于代码生成模型,目的是让模型学会在已有代码片段的中间位置生成缺失的内容(而不仅仅是从左到右续写)。
背景:
传统语言模型是从左到右(causal / autoregressive)生成文本。但在编程场景中,开发者常常需要在函数中间插入代码(例如补全函数体、填写 if 条件等)。FIM 让模型具备这种"上下文感知的中间生成"能力。
实现方式:
将一段完整代码 (x1,x2,x3)(x1,x2,x3) 重新排列为特殊格式:
<prefix><x1><suffix><x3><middle><x2>
模型学习从 <prefix> 和 <suffix> 预测 <middle>。
优点:
- 显著提升代码补全(尤其是 IDE 中光标位于中间时)的效果。
- 更符合实际开发场景。
应用实例:
- StarCoder 系列(Hugging Face + ServiceNow)
- CodeLlama(Meta)
- DeepSeek-Coder
- 很多现代代码大模型默认支持 FIM
✅ FIM 是一种训练/数据处理策略标签,表示模型在训练时使用了"中间填充"任务。
3. Tools(工具调用能力)
含义:
指模型具备理解并调用外部工具(如 API、函数、插件、数据库、计算器等)的能力,以完成仅靠内部知识无法解决的任务。
核心能力:
- 理解用户意图是否需要外部工具。
- 生成符合工具接口规范的调用请求(如 JSON 格式的函数调用)。
- 解析工具返回结果,并整合到最终回答中。
典型应用场景:
- 查询天气、股票、航班信息(需调用网络 API)
- 执行代码(如 Python 解释器)
- 操作数据库或搜索引擎
- 调用专业软件(如 Wolfram Alpha 解数学题)
技术实现方式:
- Function Calling / Tool Use :模型输出结构化指令(如 OpenAI 的
function_call,Anthropic 的tool_use) - ReAct 框架:交替进行"推理(Thought)"和"行动(Action)"
- 微调 + 提示工程(Prompt Engineering)
示例模型/系统:
- OpenAI GPT-4 with Function Calling
- Claude with Tool Use
- Qwen-Agent / Qwen-Max(支持工具调用)
- Llama 3 + Llama Guard + Toolformer 风格微调
✅ "Tools"标签表示该模型经过专门训练或设计,能安全、准确地使用外部工具扩展能力边界。
4. 推理(Reasoning)
含义:
指模型具备多步逻辑推导、问题分解、因果分析、规划等高阶思维能力,而不仅仅是模式匹配或记忆复现。
推理类型包括:
- 逻辑推理(如三段论、真假判断)
- 数学推理(分步解题)
- 常识推理(基于世界知识的推断)
- 算法推理(模拟程序执行)
- 溯因推理(从结果反推原因)
提升推理能力的技术:
- Chain-of-Thought(CoT)提示:引导模型"一步步思考"
- Tree-of-Thought(ToT):探索多个推理路径
- Self-Consistency:投票选择最一致的答案
- 强化学习(RL):奖励正确推理过程
- 合成数据训练:如 GSM8K、MATH、BigBench 等推理密集型数据集
标注"推理"的模型通常:
- 在复杂 QA、奥数题、逻辑谜题上表现更强
- 支持多跳问答(Multi-hop QA)
- 能解释其思考过程
✅ "推理"标签强调模型具备类人式的逐步思考能力,而非直接输出答案。
5. Math(数学能力)
含义:
指模型在数学问题求解方面的专项能力,包括算术、代数、微积分、概率、几何、证明等。
关键挑战:
- 符号理解(如 ∑, ∫, ∂)
- 多步计算准确性
- 形式化推理(如定理证明)
- 数值稳定性
提升 Math 能力的方法:
- 使用高质量数学语料训练(如 arXiv 论文、教科书、竞赛题)
- 引入代码执行(用 Python 验证/计算)
- 结合形式化验证工具(如 Lean、Isabelle)
- 采用 FIM(Fill-in-the-Middle) 训练代码/公式补全
- 微调于数学数据集(如 MATH、AMC、AIME、GSM8K)
典型 Math 强模型:
- Minerva(Google,专攻数学)
- AlphaGeometry / AlphaProof(DeepMind)
- Qwen-Math(通义千问数学专用版)
- DeepSeek-Math
- Llama 3 + Math 微调版本
✅ "Math"标签表示该模型在数学领域经过专门优化,在解题准确率和严谨性上优于通用模型。
6. VLM(Vision-Language Model,视觉-语言模型)
定义:
VLM 是一种多模态大模型 ,能够同时理解和处理图像(或视频)与文本,并在两者之间建立语义关联。
核心能力:
- 图文理解:看图回答问题(VQA)、图像描述(Image Captioning)
- 跨模态检索:根据文字找图,或根据图找相关文字
- 视觉推理:理解图像中的对象关系、场景逻辑、动作意图等
- 多模态对话:用户上传图片并提问,模型结合图像和上下文回答
典型架构:
- 双塔结构:图像编码器(如 ViT、CLIP) + 文本编码器(如 LLM),通过对比学习对齐
- 融合结构:将图像 token 与文本 token 拼接后输入统一的 Transformer(如 LLaVA、Qwen-VL)
应用场景:
- 智能客服(用户上传截图提问)
- 教育(解析几何题配图)
- 自动驾驶(理解交通标志+自然语言指令)
- 医疗影像报告生成
代表模型:
- LLaVA / LLaVA-NeXT
- Qwen-VL / Qwen2-VL
- InternVL
- Fuyu-8B(Adept)
- GPT-4V(ision)
- Claude 3 Opus(支持图像输入)
✅ "VLM"标签表示该模型具备图像+文本联合理解能力,属于多模态模型。
7. Coder(代码模型)
定义:
Coder 是指专门针对编程任务优化的大语言模型,擅长理解、生成、调试、解释多种编程语言的代码。
核心能力:
- 代码补全(IDE 中自动续写)
- 函数/类生成(根据注释写代码)
- 代码翻译(Python ↔ JavaScript 等)
- Bug 修复与优化
- 单元测试生成
- 支持 FIM(Fill-in-the-Middle):在光标中间插入代码
训练特点:
- 在海量开源代码库上预训练(如 GitHub Public Data)
- 使用编程专用 tokenizer(保留缩进、符号完整性)
- 微调于高质量代码数据集(如 HumanEval、MBPP、APPS)
- 可能集成代码执行环境(用于验证输出)
支持的语言:
通常覆盖主流语言:Python、JavaScript、Java、C++、Go、Rust、SQL 等,部分支持领域语言(如 Solidity、MATLAB)。
代表模型:
- CodeLlama(Meta)
- StarCoder / StarCoder2(Hugging Face + ServiceNow)
- DeepSeek-Coder
- WizardCoder
- Qwen-Coder
- GitHub Copilot(基于 OpenAI 技术)
✅ "Coder"标签表示该模型在编程任务上经过专门训练,在代码生成质量、语言覆盖率、上下文理解等方面优于通用模型。