【大模型】大模型基础名词扫盲

GLM代表通用语言模型（‌General Language Model）‌

LM（‌通用语言模型）‌是一种自然语言处理模型，‌旨在通过大规模的文本数据进行预训练，‌以提高对自然语言的处理能力。‌这种模型通过学习大量的文本数据，‌能够理解和生成自然语言文本，‌从而在各种自然语言处理任务中表现出色。‌GLM模型的应用范围广泛，‌包括但不限于机器翻译、‌文本生成、‌问答系统等。‌

LLM（Large Language Model）

"大型语言模型"（Large Language Model）的缩写，在人工智能领域，特别是自然语言处理（NLP）中，这类模型是指拥有大量参数的深度学习模型。这些模型经过大规模文本数据训练后，能够生成人类级别的文本、进行对话、回答问题、撰写文章等多种语言任务。

RAG

即检索增强生成（Retrieval-Augmented Generation）

RAG的核心思想是让语言模型在生成回答或文本时能够动态地从外部知识库中检索相关信息。

这种方法能够提高模型生成内容的准确性、可靠性和透明度，

同时减少"幻觉"（即模型生成看似合理但实际上错误的信息）。

prompt 提示词

向模型提供的输入文本或指令，以引导模型生成特定类型的响应。

这个 prompt 可以是一个问题、一段描述、一个任务说明，甚至是一部分对话历史记录等。

通过设计和优化 prompt，您可以引导模型生成符合预期的回复或完成特定的任务。

AIGC

(AIGC) 是指由人工智能（AI）生成内容。这种内容可以包括文本、代码、图像、

音频、视频等，基亍特定的算法和模型，如深度学习和自然语言处理。例如，在文本方面，一个人工智能模

型（如OpenAI的GPT-4）可以生成新的文章、诗歌、故事戒者其它文本内容。在音频和视频方面，AI可以

生成新的音乐、配音、戒者创建虚构的人物影像。

AI Agents

AI Agent（人工智能体）是一种能够感知环境、进行决策和执行动作的智能实体。不同于传统的人工智能，AI Agent 具备通过独立思考、调用工具去逐步完成给定目标的能力

数据解析

数据解析是将原始数据（结构化或非结构化）转化为易于分析和处理的形式。它是大模型理解和利用数据的第一步。
数据解析是所有其他任务（数据标注、建模、生成等）的前置环节，提供基础数据支持。

数据标注

数据标注是为原始数据赋予特定标签（如分类、实体、情感等）的过程，是监督学习和模型精度提升的重要环节。
标注后的数据通常成为语料库的组成部分，数据标注的质量直接影响模型的性能。

语料库

语料库是有组织的语言数据集合，通常用于自然语言处理（NLP）任务的训练和评估。
语料库是大模型训练的核心数据源，其规模、质量和多样性决定模型的性能。

数据画像

数据画像是对数据对象（如用户、文档）的特征、行为和属性的结构化描述和建模。
数据画像基于数据解析和标注结果生成，部分结果也可以作为语料库或意图库的辅助信息。

意图库

意图库是通过大规模数据（尤其是图像和多模态数据）构建的知识库，帮助模型理解语义与图像之间的关联。

意图库中的标注任务与数据标注类似，标注结果可以成为语料库的一部分。同时，意图库也可以通过数据画像技术，生成更细粒度的知识。

相同点与不同点

特性	数据解析	数据标注	语料库	数据画像	意图库
功能	数据清洗和结构化	数据赋标签	数据存储与组织	对象特征描述	图像语义关联
数据类型	原始数据	原始数据	标注后的数据	多维特征数据	图片和文字
输出结果	特征或结构化数据	标注结果	训练/评估数据	画像（特征表）	图像+文本对
相同点	需要依赖高质量数据		数据解析是前置步骤	数据解析与标注支持	数据解析与标注支持
管理核心	数据质量与多样性	标注效率与准确性	数据覆盖率与完整性	更新与动态优化	图像与语义一致性

数据解析是基础，提供结构化信息；

数据标注赋予语义标签，确保数据有效；

语料库 与意图库是数据存储和训练的核心资源；

数据画像则提供动态的特征分析和建模支持。