根据搜索结果,我为你梳理了一份AI领域的专有名词索引。为了让你能更系统地理解这些概念,我按照从底层基础设施到上层核心技术的逻辑层次进行了分类和解释。
🏗️ 核心技术架构与基础概念
这部分是构建AI模型的基石,主要解决数据如何被"理解"和"处理"的问题。
| 概念类别 | 核心术语 | 解释与价值 |
|---|---|---|
| 模型核心架构 | Transformer | 当今大模型的基石。其核心是自注意力机制,能让模型在处理序列(如句子)时,动态关注所有相关部分,从而高效理解长距离依赖关系。 |
| 卷积神经网络 (CNN) | 计算机视觉的经典架构。通过卷积核像"扫描仪"一样提取图像的局部特征(如边缘、纹理),是图像识别、目标检测的基础。 | |
| 循环神经网络 (RNN) / 长短期记忆网络 (LSTM) | 早期处理序列数据(如文本、时间序列)的架构。LSTM通过门控机制缓解了RNN的梯度消失问题,能更好地记忆长期信息。 | |
| 混合专家模型 (MoE) | 一种扩展模型能力的高效架构。它由多个"专家"子网络组成,每次处理输入时只激活部分专家,能在参数巨量增加的同时,控制计算成本。 | |
| 关键组件与机制 | 注意力机制 (Attention) | 让模型学会"聚焦"的关键技术。多头注意力是其扩展,允许模型并行地从不同角度关注信息,提升表达能力。 |
| 嵌入层 (Embedding Layer) | 将离散的文字、类别等转换成计算机能处理的稠密向量的"翻译器"。它将语义相近的词汇在向量空间中拉近,是模型理解语义的基础。 | |
| 位置编码 (Positional Encoding) | 为Transformer注入序列顺序信息的方法。由于自注意力机制本身不感知位置,需要额外添加位置编码来区分"猫抓狗"和"狗抓猫"。 |
🧠 模型训练、优化与应用技术
这部分关注如何让模型"学会"并"高效工作",涵盖了从训练方法到部署落地的全过程。
| 概念类别 | 核心术语 | 解释与价值 |
|---|---|---|
| 训练范式与方法 | 预训练 (Pre-training) & 微调 (Fine-tuning) | 现代大模型训练的"两步法"。先在海量通用数据上预训练 获得通用知识,再在特定领域小数据上微调,以适应具体任务。 |
| 监督/自监督/强化学习 | 三种学习范式:监督学习 用标注数据训练;自监督学习 利用数据自身构造学习任务(如预测被遮蔽的词);强化学习让模型通过与环境交互、根据奖励信号优化行为。 | |
| 人类反馈强化学习 (RLHF) | 让AI对齐人类价值观的关键技术。通过人类对模型输出的偏好反馈来训练奖励模型,进而指导模型优化,使其输出更安全、有用。 | |
| 少样本/零样本学习 | 体现大模型泛化能力的概念。少样本学习 指仅提供极少样例模型就能完成任务;零样本学习则指无需样例,直接通过指令理解任务。 | |
| 优化与压缩技术 | 知识蒸馏 (Knowledge Distillation) | 模型压缩技术。让一个小的"学生模型"模仿大的"教师模型"的行为,以实现模型的小型化和高效部署。 |
| 量化 (Quantization) & 剪枝 (Pruning) | 另外两种主流的模型压缩技术。量化 将模型参数从高精度转为低精度(如32位浮点到8位整数),减少存储和计算量;剪枝则是移除网络中不重要的权重或连接。 | |
| 应用与推理技术 | 检索增强生成 (RAG) | 解决大模型"幻觉"(生成虚假信息)和知识更新滞后问题的应用框架。在生成答案前,先从外部知识库检索相关信息,让回答基于事实。 |
| 思维链 (Chain-of-Thought, CoT) | 激发大模型复杂推理能力的提示技巧。通过要求模型"逐步推理"而不仅仅是直接给出答案,可以显著提升其在数学、逻辑等问题上的表现。 | |
| 智能体 (Agent) | 具备自主感知、决策和行动能力的AI系统。它通常以大模型为"大脑",能调用工具、与环境交互,完成复杂任务序列。 | |
| 多模态学习 | 让模型能同时理解和处理文本、图像、语音等多种信息模态的技术。核心挑战在于不同模态数据的对齐与融合。 |
💡 如何查找与使用这些概念
面对如此多的术语,你可以这样高效利用:
- 结构化索引:你可以将上表视为一个速查手册,根据需要了解的技术层级(如基础架构、训练方法)来定位概念。
- 关联性学习 :很多概念是层层递进的。例如,理解了 Transformer ,就更容易理解以其为核心的 BERT、GPT 等大模型 ;理解了 预训练和微调 ,就能明白 LoRA 这类高效微调技术的价值。
- 实践联系:当在论文或项目中遇到陌生术语时,回到这个框架判断它属于哪个环节(例如,是新的模型架构、训练技巧还是优化方法),能帮助你更快地抓住重点。
如果你想深入了解某个特定领域(例如计算机视觉中的目标检测算法 ,或者多模态融合的具体技术),我可以为你提供更详细的解释。