【基础知识】人工智能大模型常见术语（1）

参考资料：

【知乎】AI大模型新手必看：30个术语带你快速入门大模型！

【知乎】一文读懂AI黑话：31个最流行的大模型术语（图解珍藏版）

【AI全书】AI体系化知识书之全书地图

人工智能（AI）

人工智能（英语：Artificial Intelligence，缩写为 AI），是指计算机系统执行通常与人类智能相关的任务的能力，例如学习、推理、解决问题、感知和决策。它是计算机科学的一个研究领域，致力于开发和研究使机器能够感知其环境并利用学习和智能采取行动以最大限度地提高其实现既定目标的可能性的方法和软件。

--维基百科中关于 AI 的定义

简单来说，AI 是计算机科学的一个领域，旨在创建智能机器来执行通常需要人类智能才能完成的任务，例如学习、推理和解决问题。AI 系统从大量数据中学习，发现规律，从而做出预测或决策，而无需针对每一个场景进行明确编程。这就好比通过向计算机展示一百万个样本来教会它，而不是编写一百万条规则。人工智能从根本上都是依赖数据、算法和算力。

在计算基础设施之外，人工智能的主要基础组成部分是：

学习（包括机器学习、深度学习、强化学习等子领域）
知识表示、推理与决策
问题解决（包括使用泛型或特设的方法，以有序的方式，寻找问题解决方案）
感知（例如计算机视觉）
自然语言处理（NLP）
生成能力（生成模型与生成式人工智能）

强人工智能 & 弱人工智能

为了区分不同阶段和类型的AI，学术界和工业界常从以下两个角度来理解：

强人工智能 vs 弱人工智能
- 弱人工智能：专注于解决特定领域问题的AI。它在某个单一任务上可以超越人类，但无法将能力迁移到其他领域。我们今天身边所有的人工智能应用，都属于弱人工智能。例如：AlphaGo、人脸识别系统、自动驾驶系统、Siri等。
- 强人工智能：指具备与人类同等水平的、通用的智能。它能够理解、学习和应用其智能来解决任何问题，就像人类一样拥有意识、思维和情感。目前，强人工智能尚未实现，是科学家们追求的终极目标之一。
通用人工智能
- 这是目前业界（尤其是在ChatGPT等大模型出现后）讨论非常热烈的一个概念。它比"强人工智能"的定义更务实一些。通用人工智能指机器能够像人类一样学习和执行任何智力任务，能够将在一个领域学到的技能迁移到完全陌生的领域。许多人认为，未来几年到几十年的发展目标，就是实现通用人工智能。

通用人工智能（AGI）

通用人工智能（Artificial General Intelligence，AGI）是一种假想的智能体。一般认为，它能够学习并执行人或其他动物所能完成的任何智力任务；另一种定义则是，通用人工智能是在大多数具有经济价值的任务上超越人类能力的自主系统。创造通用人工智能是一些人工智能研究以及OpenAI、DeepMind和Anthropic等公司的首要目标。通用人工智能也是科幻小说和未来学中的常见主题。

--维基百科中关于 AGI 的定义

AGI作为AI发展的终极愿景，旨在实现智能系统像人类一样理解和处理复杂情况与任务的能力。

当前的人工智能（AI）技术均依靠一组预先确定的参数运行。例如，在图像识别和生成方面经过训练的人工智能模型无法构建网站。我们今天使用的 AI 系统需要大量的训练才能处理同一领域的相关任务，而 AGI 是完整的人工智能的理论表现，它以广义的人类认知能力解决复杂的任务，是人工智能发展的下一阶段。

AGI旨在模仿人类大脑的认知能力。除了前面提到的核心特征之外，AGI 系统还具有将其与其他类型的 AI 区分开来的某些关键特征：

泛化能力：AGI 可以将在一个领域学到的知识和技能运用到另一个领域，使其能够有效地适应新的和未知的情况。
常识知识：AGI 拥有关于世界的大量知识，包括事实、关系和社会规范，因此它可以根据这样的共识完成推理和决策。

生成式人工智能（GAI） & AIGC

生成式人工智能（或称生成式AI、产生式AI；英语：Generative artificial intelligence、Generative AI、GenAI、GAI ）是一种人工智能系统，能够产生文字、图像或其他媒体以回应提示工程，比如ChatGPT。产生模型学习输入数据的模式和结构，然后产生与训练数据相似但具有一定程度新颖性的新内容，而不仅仅是分类或预测数据。用于处理生成式人工智能的最主要框架包括生成对抗网络（GAN）和基于转换器的生成式预训练模型（GPT）。

--维基百科中关于生成式人工智能的定义
人工智能生成内容（Artificial Intelligence Generated Content，简称 AIGC ）是人工智能技术生成的内容形式 。即人工智能通过学习大量的数据，来实现自动生成各种内容，如文本、图像、音频、视频等，是继专家生产内容（PGC , Professional Generated Content）、用户生产内容（UGC , User Generated Content）、专业用户生产内容（PUGC，Professional User Generated Content）之后的新型内容创作方式。

基于Transformer模型的深度神经网络技术和大型语言模型（LLM）的改进，使得2020年代初期出现了生成式人工智能的人工智能热潮。其中包括ChatGPT、Copilot、Gemini、Claude、Grok、DeepSeek等聊天机器人；Stable Diffusion、Midjourney、DALL-E等文本到图像生成模型；以及Sora、Veo等文本到视频生成模型。OpenAI、Anthropic、微软、Google、百度等公司以及许多规模较小的公司都已开发出生成式人工智能模型。

生成式人工智能可以是单模态的，也可以是多模态的。单模态系统仅接受一种类型的输入，而多模态系统可以接受多种类型的输入。

那么这里我们要理解下两者之间是什么关系？

所有的AIGC都是基于生成式AI，但是不是所有的生成式AI都是AIGC，因为生成式AI还可以用于其他领域。举个例子，Midjourney是生成式人工智能（以生成图片为目标），利用AI生成的图片就是AIGC。

实现AIGC更加智能化、实用化的三大要素是：数据、算力、算法。

数据：包括存储（集中式数据库、分布式数据库、云原生数据库、向量数据库）、来源（用户数据、公开域数据、私有域数据）、形态（结构化数据、非结构化数据）、处理（筛选、标注、处理、增强）。
算力：为AIGC提供基础算力的平台，包括半导体（CPU、GPU、DPU、TPU、NPU）、服务器、大模型算力集群、基于IaaS搭建分布式训练环境、自建数据中心部署。
算法：通过模型设计、模型训练、模型推理、模型部署步骤，完成从机器学习平台、模型训练平台到自动建模平台的构建，实现对实际业务的支撑与覆盖。

AIGC 的工作原理可以分为以下几个核心步骤：

数据收集和处理：搜集所需类型（文本、图像、音频、视频）的大量数据，并对其进行清洗、格式化和增强，以保证数据质量。
模型选择和训练：根据要生成的内容类型选择合适的AI模型（如文本用RNN/Transformer，图像用GAN），并用处理好的数据来训练模型，使其学会识别数据中的模式和结构。
特征学习和优化：在训练过程中，模型通过调整参数来学习数据的特征（比如语法、视觉元素），并使用优化算法（如梯度下降）来减小预测和真实数据之间的差异，不断迭代直到达到满意的性能水平。
内容生成和后处理：利用训练好的模型接收输入（种子文本、图像、音频样本等）生成新内容，并对这些内容进行后处理，比如调整文本的语法、提升图像质量、清晰度等。
反馈与模型优化：根据生成内容的反馈继续优化模型，以提高内容质量和逼真度。

目前企业/机构端在使用相关的AIGC能力时，主要有五种落地方式：直接使用、Prompt、LoRA、Finetune、Train。

直接使用：直接使用基础大模型厂商发布的产品服务，通过接口调用方式嵌入自身业务或系统当中。
Prompt：通过提示工程，通过微调少量参数，引导预训练语言模型做特定下游任务。利用文本对话方式操控语言大模型，引导生成结果。
LoRA：仅训练低秩矩阵（low rank matrics），使用时将LoRA模型的参数注入基础大模型，在不修改大模型的前提下，改变模型的生成风格。所需的训练资源比训练基础大模型要小很多，非常适合社区使用者和个人开发者。
FineTune：是应用或利用迁移学习的一种方式。对基础大模型进行微调，以适应特定任务。当数据集相似，但数据量又很少的情况下，微调省去大量计算资源和计算时间，提高了计算效率，甚至提高准确率。具体来说，微调是一个过程，它采用已经针对一项给定任务训练过的模型，然后调整或微调模型以使其执行第二个类似任务。
Train：调用数据、算力、算法从头训练大模型，从头开始训练大模型。除非特殊领域和特定要求，一般商业公司不会从头开始训练基础大模型。

大语言模型（LLM）

大型语言模型（英语：large language model，LLM），也称大语言模型，简称大模型，是一种基于人工神经网络的语言模型。其名称中的"大型"指模型具有庞大的参数量（通常在数十亿至数万亿级别，如GPT-3含1750亿参数）以及巨大的训练数据规模。

--维基百科中关于 LLM 的定义

简单来说，大语言模型是指一种经过海量数据集训练，可识别、解释和生成文本的 AI 模型。

工作原理：LLM 使用深度学习流程，分析海量非结构化数据并从中学习。它们基于人工神经网络（更准确地说，是 Transformer 模型 ）构建，这些模型采用一种称为自注意力机制的技术，使其能够学习并理解上下文，这是解读人类语言的关键。

规模最大、功能最强大的LLM基本采用生成式预训练 Transformer (GPT) 模型。2017年推出的Transformer架构用自注意力机制取代了循环，从而实现了高效的并行化、更长的上下文处理能力以及在前所未有的数据量上进行可扩展的训练。

LLM 有很多实际应用，如文案写作、知识库回答、文本分类、代码生成、文本生成...等。

下图展示了 2017 年至今大模型发展关键节点：

词元（Token）

Token 可以被理解为文本中的最小单位。 在英文中，一个 token 可以是一个单词，也可以是一个标点符号。在中文中，通常以字或词作为 token。ChatGPT 将输入文本拆分成一个个 token，使模型能够对其进行处理和理解。

对于模型而言，token 是一种数字化的表示形式。每个 token 都与一个唯一的数字 ID 相关联，模型通过这些 ID 来区分不同的 token。 在训练过程中，模型学习了将文本映射到这些数字 ID 的方法，以便能够对新的文本进行编码和解码。

这个过程可以通过一种称为词汇表（vocabulary）的映射方式实现。一旦输入文本被转换为数字 ID 的序列，模型就可以将其作为输入进行处理。这些数字 ID 可以被表示为向量形式。

注意：Token并不是一成不变的，在不同的上下文中，他会有不同的划分粒度。Token概念的提出是为了与特定的语言解耦。

当我们向GPT进行提问时，GPT会做如下处理：

GPT首先会识别我们的语言种类，例如中文、英文
GPT会根据自己的Token序列化规则将我们输入的文本转换为多个Token
GPT根据自己的Token词汇表以及训练的结果为我们输入的Token生成预测后的Token
GPT将生成的Token再转换成人类可读的自然语言提供给我们

模型的输入有一个固定的最大长度限制。当输入文本超过这个限制时，必须进行截断或者其他处理方式来适应模型的要求。这就意味着长文本可能会被分割成多个部分，每个部分成为一个 token 序列。模型有长度限制是由于计算资源和内存限制的存在。

自然语言处理（NLP）

自然语言处理（英语：Natural Language Processing，缩写作 NLP）是人工智能和语言学领域的交叉学科，研究计算机处理、理解与生成人类语言的技术。此领域探讨如何处理及运用自然语言；自然语言处理包括多方面和步骤，基本有认知、理解、生成等部分。

--维基百科中关于 NLP 的定义
自然语言处理（Natural Language Processing : NLP) ，就是利用计算机为工具对人类特有的书面形式和口头形式的自然语言的信息进行各种类型处理和加工的技术。

--冯志伟《自然语言的计算机处理》 1996

简单来说就是让机器读懂人的语言。

自然语言处理技术的工作原理如下：

自然语言处理主要的作用域：

文本朗读（Text to speech）
语音合成（Speech synthesis）
语音识别（Speech recognition）
断词／分词（Text segmentation/Word tokenization）
中文自动分词（Chinese word segmentation）
语法分析／剖析（Syntactic analysis/Parsing）
汉语自动句法分析
词汇标示框架（Lexical Markup Framework）
n元语法（n-gram）
词嵌入（Word2vec）
词性标注（Part-of-speech tagging）
文档分类（Document classification）
自然语言生成（Natural language generation）
文本分类（Text categorization）
信息检索（Information retrieval）
信息抽取（Information extraction）
文字校对（Text-proofing）
问答系统（Question answering）
聊天机器人（ChatBot）
对话系统（Dialogue system）
机器翻译（Machine translation）
自动摘要（Automatic summarization）
文字蕴涵（Textual entailment）
命名实体识别（Named entity recognition, NER）
主题模型（Topic Model）
文本情感分析（Sentiment analysis）
语义分析（Semantic analysis）
潜在语义学（Latent Semantic Analysis）
词袋模型（Bag-of-words model）
标签云（Tag Cloud）
自然语言理解（Natural Language Understanding）
形态分析......等

NLP 的发展难点：单词的边界界定、词义的消歧、句法的模糊性、有瑕疵的或不规范的输入、语言行为与计划。

机器学习（ML）

机器学习（英语：machine learning，简称 ML）是人工智能的一个分支。机器学习理论主要是设计和分析一些让计算机可以自动"学习"的算法。机器学习算法是一类从数据中自动分析获得规律，并利用规律对未知数据进行预测的算法。

--维基百科中关于机器学习的定义

机器学习是人工智能的子集，是实现人工智能的一种途径，但并不是唯一的途径。 深度学习（Deep learning）是机器学习的子集，灵感来自人脑，由人工神经网络（ANN）组成，它模仿人脑中存在的相似结构。在深度学习中，学习是通过相互关联的「神经元」的一个深层的、多层的「网络」来进行的。「深度」一词通常指的是神经网络中隐藏层的数量。

机器学习三要素包括数据、模型、算法。

数据驱动：数据驱动指的是我们基于客观的量化数据，通过主动数据的采集分析以支持决策。与之相对的是经验驱动。
模型：在AI数据驱动的范畴内，模型指的是基于数据X做决策Y的假设函数，可以有不同的形态，计算型和规则型等。
算法：指学习模型的具体计算方法。统计学习基于训练数据集，根据学习策略，从假设空间中选择最优模型，最后需要考虑用什么样的计算方法求解最优模型。通常是一个最优化的问题。

机器学习核心技术：

分类：应用以分类数据进行模型训练，根据模型对新样本进行精准分类与预测。
聚类：从海量数据中识别数据的相似性与差异性，并按照最大共同点聚合为多个类别。
异常检测：对数据点的分布规律进行分析，识别与正常数据及差异较大的离群点。
回归：根据对已知属性值数据的训练，为模型寻找最佳拟合参数，基于模型预测新样本的输出值。

机器学习工作流（WorkFlow）包含数据预处理（Processing）、模型学习（Learning）、模型评估（Evaluation）、新样本预测（Prediction）几个步骤：

数据预处理：输入（未处理的数据 + 标签）→处理过程（特征处理+幅度缩放、特征选择、维度约减、采样）→输出（测试集 + 训练集）。
模型学习：模型选择、交叉验证、结果评估、超参选择。
模型评估：了解模型对于数据集测试的得分。
新样本预测：预测测试集。

机器学习方法传统上被划分为以下几类，对应不同的学习范式（learning paradigms），具体取决于学习系统可获得的"信号"或"反馈"的类型：

监督学习（supervised learning） ：从给定的训练数据集中学习出一个函数，当新的数据到来时，可以根据这个函数预测结果。监督学习的训练集要求是包括输入和输出，也可以说是特征和目标。 训练集中的目标是由人标注的。常见的监督学习算法包括回归分析和统计分类。监督学习和非监督学习的差别就是训练集目标是否有人为标注。他们都有训练集且都有输入和输出
无监督学习（unsupervised learning） ：与监督学习相比，训练集没有人为标注的结果。常见的无监督学习算法有生成对抗网络（GAN）、聚类。
半监督学习：介于监督学习与无监督学习之间。
强化学习：机器为了达成目标，随着环境的变动，而逐步调整其行为，并评估每一个行动之后所到的回馈是正向的或负向的。

在监督学习（supervised learning）中，训练数据带有预期的输出标签，模型的任务是学习输入与输出之间的映射关系；而在无监督学习（unsupervised learning）中，数据是未标注的，模型需要在没有明确答案的情况下，自主发现其中的模式或结构。

深度学习（DL）

深度学习（英语：deep learning，简称 DL ）是机器学习的分支，是一种以人工神经网络为架构，对资料进行表征学习的算法。深度学习中的形容词"深度"是指在网络中使用多层。

--维基百科中关于深度学习的定义

深度学习模型可以识别复杂的图片、文本、声音和其他数据模式，从而生成准确的见解和预测。至今已有数种深度学习框架，如深度神经网络、卷积神经网络和深度置信网络和循环神经网络。

深度学习由神经网络层驱动。神经网络由一系列算法按照人类大脑的工作方式松散建模而成，而使用大量数据进行训练，即对神经网络的神经进行配置。经过训练后，深度学习模型可以处理新数据，能够摄取并实时分析多个来源的数据，无需人为干预。在深度学习中，图形处理单元 (GPU) 可以同时处理多个计算，以优化方式训练深度学习模型。

神经网络结构包括：

输入层（接收原始数据如像素、词语、数字，每个节点代表一个特征或输入值）
隐藏层（多层转换数据，每层学习不同级别的抽象，更多层 = 更深的网络 = 更复杂的模式）
输出层（产生最终预测可以是类别标签、概率或生成的内容）

深度学习的基础是机器学习中的分散表示（distributed representation）。分散表示假定观测值是由不同因子相互作用生成。在此基础上，深度学习进一步假定这一相互作用的过程可分为多个层次，代表对观测值的多层抽象。不同的层数和层的规模可用于不同程度的抽象。深度学习运用了这分层次抽象的思想，更高层次的概念从低层次的概念学习得到。这一分层结构常常使用贪心算法逐层构建而成，并从中选取有助于机器学习的更有效的特征。

深度学习架构类型：

卷积神经网络（CNN）
- 适合：图像、视频、计算机视觉任务
- 工作原理：使用卷积滤波器检测模式，学习边缘 → 纹理 → 形状 → 物体，保持数据中的空间关系
- 常见应用：图像分类、物体检测、OCR（从图像中读取文字）、医学图像分析...等
循环神经网络（RNN/LSTM）
- 适合：序列数据、时间序列、语音
- 工作原理：具有先前输入的"记忆"，逐个元素处理序列，LSTM解决梯度消失问题
- 常见应用：语音识别、语言建模、时间序列预测、音乐生成
Transformer
- 适合：自然语言处理、现代LLM
- 工作原理：使用"注意力"机制对所有输入加权，并行处理整个序列（比RNN更快），自注意力捕获长距离依赖
- 常见应用：语言模型（GPT、BERT、LLaMA）、机器翻译、文本生成、问答系统
生成对抗网络（GAN）
- 适合：生成新内容、图像合成
- 工作原理：两个网络竞争，生成器vs判别器；生成器创建假数据，判别器尝试检测假货；竞争使两者都改进，直到生成器创建逼真的输出
- 应用：图像生成、风格迁移、数据增强、深度伪造
自编码器（Autoencoder）
- 适合：压缩、异常检测、去噪
- 工作原理：编码器将数据压缩为更小的表示，解码器从压缩形式重建原始数据，迫使网络学习本质特征
- 应用：降维、异常检测、图像去噪、特征学习

机器学习是 AI 的一个子集，深度学习是机器学习的子集，而生成式人工智能将机器学习和深度学习的神经网络提升到了一个新的水平。机器学习和深度学习侧重于预测和模式识别，而生成式人工智能则根据其检测到的模式产生特殊输出。

计算机视觉（CV）

计算机视觉（Computer vision，CV）是一门研究如何使机器"看"的科学，更进一步的说，就是指用摄像机和计算机代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图像处理，用计算机处理成为更适合人眼观察或传送给仪器检测的图像。

--维基百科中关于计算机视觉的定义

计算机视觉的主要目标是，先理解视频和静止图像的内容，然后从中收集有用的信息，以便解决越来越多的问题（简单来说，他的目的是看懂图片里的内容）。

计算机视觉使用如下所示的技术（简单来说，使用多层的神经网络，较低层的识别初级的图像特征，若干底层特征组成更上一层特征，最终通过多个层级的组合，最终在顶层做出分类）：

深度学习
1. 深度学习是一种使用神经网络的机器学习。深度学习神经网络是由在计算机内部协同工作的多层软件模块（称为"人工神经元"）组成的。它们利用数学计算来自动处理图像数据的不同方面，并逐渐形成对图像的综合理解。
卷积神经网络
1. 卷积神经网络 (CNN) 利用标签系统对视觉数据进行分类并理解整个图像。它们将图像作为像素进行分析，并为每个像素赋予一个标签值。输入此值是为了执行被称为"卷积"的数学运算，并对图像进行预测。就像人类尝试识别远处的对象那样，CNN 会首先识别轮廓和简单形状，然后填充颜色、内部形状和纹理等其他细节。最后，它会在多次迭代中反复执行预测过程，以提高准确性。
循环神经网络
1. 循环神经网络（RNN）与 CNN 类似，但可以处理一系列图像，以找到它们之间的联系。CNN 用来分析单张图像，而 RNN 可以分析视频并了解图像之间的关系。

几乎在每个计算机视觉技术的具体应用都要解决一系列相同的问题：识别、运动、场景重建、图像恢复。

AI 幻觉

在人工智能领域中，幻觉（英语：hallucination，或称人工幻觉）是由人工智能生成的一种回应，它含有貌似事实的虚假或误导性资讯。

--维基百科中关于幻觉（人工智能）的定义

在自然语言处理中，幻觉通常被定义为"生成的内容相对于被提供的源内容而言是无意义或不可信的"。自然语言模型产生幻觉数据的可能原因有很多：来自数据的幻觉、来自训练的幻觉。

虽然可能无法完全消除 AI 幻觉，但可以采取一些具体步骤来减少幻觉和其他不准确之处：

更多的数据和更好的数据
避免过度拟合（不要在一个数据集上对 AI 模型训练太多）
广泛的测试
使用专为用例设计的模型
持续改进
为生成式 AI 聊天机器人设置保护措施

Transformer 架构

在深度学习中，transformer（直译为"变换器"）是一种基于多头注意力机制的人工神经网络架构 ，其中文本被转换为称为词元（token） 的数值表示，每个词元通过从词嵌入表中查找转换为一个向量。在每一层，每个词元都通过并行的多头注意力机制在上下文窗口的范围内与其他（未屏蔽的）词元进行上下文关联，从而放大关键词元的信号并减弱不太重要的词元，从而按输入数据各部分重要性的不同而分配不同的权重。采用该架构的模型主要用于自然语言处理（NLP）与计算机视觉（CV）领域。

--维基百科中关于 transformer架构的定义

Transformer 的核心功能是对输入数据的矩阵进行变换处理。这种变换是通过计算矩阵内部各个向量之间的关系来实现的，目的是去除无效信息并加强有效信息。在这个过程中，组成矩阵的向量的值会发生变化，但形状保持不变。这样的变换使得模型能够更好地解决最终数学问题，计算最优解。

现代版transformer于2017年由谷歌大脑的一个团队在论文《Attention Is All You Need》中提出。

不同于 RNN，Transformer 以并行化的方式处理数据，从而实现更大规模的并行计算和更快速的训练。这得益于 Transformer 架构中的自注意力机制，它使得模型能够同时考虑输入序列中的所有位置，而无需按顺序逐步处理。自注意力机制允许模型根据输入序列中的不同位置之间的关系，对每个位置进行加权处理，从而捕捉全局上下文信息。

在机器翻译任务上，Transformer表现超过了RNN和CNN，只需要编/解码器就能达到很好的效果，可以高效地并行化。完整的 Transformer 由编码器（Encoder） 和 解码器（Decoder） 组成：

编码器会将输入文本转换为中间表示形式。编码器是一个庞大的神经网络。
解码器会将该中间表示形式转换为有用的文本。解码器也是一个庞大的神经网络。

在Transformer里，将每个字与句子中所有单词进行计算，算出这个词与每个单词的相关度，从而确定这个词在这个句子里的更准确意义。

感兴趣的可以看这篇科普文章：zhuanlan.zhihu.com/p/607423406...

提示工程（Prompt）

提示工程（英语：Prompt engineering ）是人工智能中的一个概念，特别是自然语言处理（NLP）。在提示工程中，任务的描述会被嵌入到输入中。例如，不是隐含地给予模型一定的参数，而是以问题的形式直接输入。提示工程的典型工作方式是将一个或多个任务转换为基于提示的数据集，并通过所谓的「基于提示的学习（prompt-based learning）」来训练语言模型。 提示工程可以从一个大型的"冻结"预训练语言模型开始工作，其中只学习了提示的表示方法，即所谓的"前缀调整（prefix-tuning）"或"提示调整（prompt tuning）"。

--维基百科中关于 prompt engineering 的定义

一个提示词可以包含传递到模型的指令或问题等信息，也可以包含其他详细信息，如上下文、输入或示例等。可以通过这些元素来更好地指导模型，并因此获得更好的结果。这种设计有效的提示词以指导模型执行期望任务的方法被称为提示工程。

一个强大的Prompt通常包含以下几个或多个元素：

指令（Instruction）：模型要执行的核心任务
上下文（Context）：完成任务所需的背景信息、相关事实或数据
输入数据（Input Data）：希望模型处理的具体内容或问题
输出指示器（Output Indicator）：明确规定希望模型以何种形式输出结果
角色扮演（Role Playing）：让模型扮演一个特定的角色，如专家、作家、程序员等
链式思考（Chain-of-Thought）：要求模型展示其推理过程，一步一步地思考，最后得出结论
提供示例（Few-Shot Learning）：在Prompt中提供一两个输入和输出的例子，让模型模仿这种模式

少样本提示这是提示工程中的一种技巧，即在提示中包含任务的例子。比如，你想让LLM帮你总结论文，你可以先给它几个总结好的论文例子，这样它就能更好地理解你的需求，生成更符合你期望的结果。这种方法特别适合那些难以用详细指令描述的任务。

Prompt技术是模型效果优化的两条重要路径之一（微调和RAG技术）的共同基础。

检索增强生成（RAG）

检索增强生成（英语：Retrieval-augmented generation，RAG ）是一种使大语言模型（LLM）能够从外部数据源中检索并集成新信息的技术。在RAG框架下，大语言模型首先查阅指定的文档集合，再对用户查询作出回应。这些文档补充了模型预训练数据中已有的信息，使模型能够利用训练数据中未包含的领域特定信息和/或最新信息。例如，该技术可帮助基于大语言模型的聊天机器人访问企业内部数据，或依据权威来源生成回答。

--维基百科中关于 RAG 的定义

简单来说，RAG 技术就是给大语言模型新知识。

RAG通过在生成回答前引入信息检索环节来提升大语言模型的性能。与仅依赖静态训练数据的模型不同，RAG能够从数据库、上传文档或网络资源中提取相关文本。据《Ars Technica》报道："RAG本质上是将大语言模型的处理流程与网页搜索或其他文档查询过程相结合，从而帮助模型更准确地遵循事实，以此提升其表现。" 该方法有助于减少人工智能幻觉。

RAG还降低了为纳入新数据而重新训练大语言模型的需求，从而节省计算资源与资金成本。除提升效率外，RAG还使模型能在回答中附带信息来源，便于用户核查引用内容。这种机制增强了透明度，用户可通过比对检索到的原始内容来验证回答的准确性与相关性。

采用RAG的大语言模型被设计为优先使用新检索到的信息。这种技术被称为"提示词填充"（prompt stuffing）。在没有提示词填充的情况下，大语言模型的输入仅由用户生成；而采用提示词填充时，系统会在此输入中额外添加相关上下文以引导模型生成回答。该方法在提示词开头即提供关键信息，促使模型优先采用所供给的数据，而非依赖预训练知识。

一句话总结：RAG（中文为检索增强生成） = 检索技术 + LLM 提示

有3个最著名的基于 LLM 的管道和应用程序的开源库------LangChain 和 LlamaIndex，Dify。

RAG 架构可以分成 3 个部分：

索引（Index）：将企业的资料预先处理，并放进资料库中。
检索（Retrieval）：用户提出问题时，会根据提示词通过检索演算法，在知识库中找到最接近的几段资料。
生成（Generation）：把在检索阶段找到的相关资料纳入提示词，让大语言模型（LLM）根据这些相关资料，生成流畅的文字，而不是单单把从知识库中撷取的内容直接复制贴上。

智能体（AI Agent）

AI Agent（智能体）是支撑从对话助手到自主任务程序的核心概念。它是指能够感知环境、自主决策并执行任务以实现特定目标的智能实体。在AI大模型时代，任何具备独立思考能力并能与环境进行交互的实体，都可以被抽象地描述为智能体（Agent）。

Agent 的四大核心能力：环境感知、智能决策、任务执行、持续进化。利用大模型作为大脑来构建智能体是公认的方式。

Agent = LLM (大脑) + Planning (规划) + Tool use (执行) + Memory (记忆)

LLM (大脑)：作为核心推理机，负责理解意图、生成文本和进行逻辑判断。
Planning (规划)：能够将复杂的目标拆解成可执行的步骤。
Memory (记忆)：记录对话历史（短期）和存储专业知识库（长期）。
Tool Use (工具使用)：能够根据需求去查谷歌搜索、读数据库、调用 API 等外部工具。

一个精简的Agent决策流程，用函数表达式：Agent：P（感知）---> P（规划）--->A（行动）

感知（Perception）是指Agent从环境中收集信息并从中提取相关知识的能力
规划（Planning）是指Agent为了某一目标而作出的决策过程
行动（Action）是指基于环境和规划做出的动作

关于Agent详细介绍，感兴趣的可以阅读这篇文章：zhuanlan.zhihu.com/p/659386520

AI 知识库

AI 知识库是一个动态的集中式平台，它使用机器学习、自然语言处理 (NLP) 和数据分析等 AI 技术来智能地存储、组织和检索信息。

与静态且依赖手动更新的传统知识库不同，AI 知识库能够主动从数据和用户交互中学习。它能够处理文本、图像或数据集等多种格式，为复杂的查询提供与上下文相关的答案。

其技术架构分两部分：

一是离线的知识数据向量化，包括加载数据/知识库、拆分文本、Embedding向量化处理，最后将向量化的数据块存储于VectorDB，以便于搜索。
二是在线的知识检索返回
1. 检索：使用检索器从存储中检索与用户输入相关的Chunk。
2. 生成：结合问题和检索到的知识提示词，利用大语言模型生成答案。

在企业环境中实现一个AI知识库通常涉及以下几个步骤：

数据收集与清洗：从企业内部系统（如ERP、CRM等）以及外部数据源（如行业报告、市场调研）收集数据，并进行清洗和预处理。
数据建模：使用知识图谱（Knowledge Graph）或本体论（Ontology）对数据进行结构化建模。例如，RDF（Resource Description Framework）和OWL（Web Ontology Language）是常用的本体论建模语言。
存储与索引：将结构化的数据存储在数据库中，常用的数据库有图数据库（如Neo4j）、关系型数据库（如PostgreSQL）和文档数据库（如MongoDB）。
知识推理与检索：通过SPARQL等查询语言进行知识检索，并使用逻辑推理引擎（如Reasoner）进行推理。

向量数据库（Vector DB）

向量数据库（Vector database）、向量存储或向量搜索引擎是一种能够存储向量（固定长度的数值列表）及其他数据项的数据库。向量数据库通常实现一种或多种近似最近邻（Approximate Nearest Neighbor，ANN）算法，使用户可以使用查询向量搜索数据库，以检索最匹配的数据库记录。

--维基百科中关于向量数据库的定义

向量是数据在高维空间中的数学表示。在这个空间中，每个维度对应数据的一个特征，维度的数量从几百到几万不等，具体取决于所表示数据的复杂性。向量在该空间中的位置代表其特征。单词、短语或整篇文档，以及图像、音频和其他类型的数据，都可以被向量化。

这些特征向量可以通过机器学习方法从原始数据中计算得到，例如特征提取算法、词嵌入或深度学习网络。其目标是使语义相似的数据项具有彼此接近的特征向量。

向量数据库的技术实现：

索引结构：向量索引描述的是相似度的程度高和低。倒排索引（主要用于基于标签或关键词的向量检索）和近似最近邻索引（ANN，解决高维向量空间中精确最近邻搜索效率低下的问题）是常用的索引结构。
存储方式：（1）将高维向量数据进行压缩存储，常见的压缩方法有量化压缩和PCA（主成分分析）等；（2）采用分布式存储的方式，采用数据分片技术，将数据按照一定的规则分成多个片，每个片存储在不同的节点上。（3）利用缓存技术，将热点数据存储在缓存中。
查询优化：索引技术是核心。倒排索引和近似最近邻（ANN）索引、HNSW索引、对查询语句进行优化、利用缓存技术来优化查询、对数据进行预处理、动态调整资源分配....等多种方法。

向量数据库可用于相似性搜索、语义检索、多模态搜索、推荐系统、大型语言模型（LLM）、物体识别等。向量数据库也常用于实现检索增强生成（RAG）。RAG的检索组件可以是任何搜索系统，但最常见的实现方式是向量数据库。

总之，知识库的存储载体往往是向量数据库，另外在数据存储和检索上，向量数据库以向量空间模型高效存储和检索高维数据，为 AI 大模型和 Agent 智能体提供强有力的数据支持。

知识图谱

知识图谱（英语：Knowledge Graph），是结构化的语义知识库，用于以符号形式描述物理世界中的概念及其相互关系。其基本组成单位是"实体-关系-实体"三元组，以及实体及其相关属性-值对，实体间通过关系相互联结，构成网状的知识结构。知识图谱可以实现Web从网页链接向概念链接转变，支持用户按主题而不是字符串检索，真正实现语义检索。基于知识图谱的搜索引擎，能够以图形方式向用户反馈结构化的知识，用户不必浏览大量网页即能准确定位和深度获取知识。

--维基百科中关于知识图谱的定义

知识图谱：是结构化的语义知识库，用于迅速描述物理世界中的概念及其相互关系。

知识图谱通过对错综复杂的文档的数据进行有效的加工、处理、整合，转化为简单、清晰的"实体,关系,实体"的三元组，最后聚合大量知识，从而实现知识的快速响应和推理。知识图谱通常被用来存储彼此之间具有相互联系的实体。

知识图谱的原始数据类型一般来说有三类（三类原始数据）：

结构化数据（Structed Data）：如关系数据库
半结构化数据（Semi-Structed Data）：如XML、JSON、百科
非结构化数据（UnStructed Data）：如图片、音频、视频、文本

一般有两种选择存储三类数据，一个是通过RDF（资源描述框架）这样的规范存储格式来进行存储，还有一种方法，就是使用图数据库来进行存储，常用的有Neo4j等。

知识图谱的整体架构如下图所示，其中虚线框内的部分为知识图谱的构建过程，同时也是知识图谱更新的过程。其实就是信息抽取、知识融合、知识加工三个过程。

总之，知识图谱本质上是一种叫作语义网络的知识库，即一个具有有向图结构的知识库，其中图的结点代表实体或者概念，而图的边代表实体/概念之间的各种语义关系。

关于知识图谱架构的解读可以看这篇文章：www.cnblogs.com/huangyc/p/1...

光学字符识别（OCR）

光学字符识别（英语：Optical Character Recognition，缩写：OCR）是指对包含文本内容的图像或视频进行处理和识别，并提取其中所包含的文字及排版信息的过程。例如，一个常见的应用是将包含文档图像的不可编辑状态的PDF文档通过OCR技术识别后，转换为可编辑状态的Word格式文档。

--维基百科中关于 OCR 的定义

OCR 处理过程一般为：

输入：对于不同的图像格式，有着不同的存储格式、不同的压缩方式
前期处理：二值化、图像降噪、倾斜校正
中期处理：版面分析、字符切割、字符识别、版面还原
后期处理：根据特定的语言上下文的关系，对识别结果进行校正
输出：将识别出的字符以某一格式的文本输出

OCR涉及两个主要任务：文本检测和文本识别。第一步是在图像中定位文本的位置，第二步则是应用识别算法将识别出的文本转换为计算机可读的字符。

文本检测是OCR的核心环节之一，目的是从图像中定位文字区域。将文本检测作为图像分割问题来处理，即通过像素分类来识别文本区域，可以参考以下技术流程：
1. 特征提取：骨干网络提取图像多尺度特征。
2. 像素级预测：分割网络输出概率图，标记每个像素是否属于文本区域。
3. 后处理：通过二值化、连通域分析等步骤，将概率图转换为文本边界框或多边形。
文本识别
1. 基于CTC损失的方法
2. 基于序列到序列的方法

大模型上下文协议（MCP）

模型上下文协议（英语：Model Context Protocol，缩写：MCP ）是Anthropic所推动的一项开放标准，目的是为大型语言模型应用提供一个标准化接口，使其能够连接外部数据源和工具，并与其交互。

MCP的目标在克服大型语言模型应用仅依赖其训练数据的局限性，使其能够获取所需的上下文信息，以执行更广泛的任务。MCP通过定义一套通用的准则和格式，使得大型语言模型应用可以在需要时动态地获取相关信息、执行操作，从而增强其功能和使用范围。

模型上下文协议的核心在于建立一个标准化的通信层，使得大型语言模型能够在处理用户请求或执行任务时，如果需要访问外部信息或功能，可以通过MCP客户端向MCP服务器发送请求。MCP服务器则负责与相应的外部数据源或工具进行交互，获取数据并按照MCP协议规范进行格式化，最后将格式化后的数据返回给大型语言模型。大型语言模型接收到上下文信息后，可以将其用于生成更准确、更相关的回复，或者执行用户请求的操作。

--维基百科中关于 MCP 的定义

MC 能够以一致的方式将各种数据源、工具和功能连接到 AI 模型（一个中间协议层），就像 USB-C 让不同设备能够通过相同的接口连接一样。（MCP 就像 AI 模型的"万能转接头"，让 LLM 能轻松的获取数据或者调用工具）

MCP 核心概念：

协议规范（Protocol Specification）: 定义了客户端和服务器端之间通信的规则、数据格式、请求和响应结构以及错误处理机制。
MCP客户端（MCP Client）: 在 LLM或其服务基础设施端的实现，负责构建请求并发送给MCP服务器。Anthropic 提供了多种编程语言（如Python、TypeScript和Java）的SDK，以简化MCP客户端的开发。
MCP服务器（MCP Server）: 在外部系统端的实现，接收来自MCP客户端的请求，与实际的数据源或工具进行交互，并将获取的数据按照MCP协议规范格式化后返回给客户端。
上下文信息交换（Contextual Information Exchange）: 促进大型语言模型与外部系统之间上下文信息的双向交换。
能力协商（Capability Negotiation）: 允许客户端和服务器在通信开始时确定彼此支持的功能和协议版本。

从本质上讲，MCP 遵循客户端-服务器架构，其中主机应用程序可以连接到多个服务器，架构图如下所示。

MCP 由三个核心组件构成：Host、Client 和 Server。假设你正在使用 Claude Desktop (Host) 询问："我桌面上有哪些文档？"

Host （宿主应用，比如 Cursor、Cline 等，是处理一个或多个 MCP Server 的应用程序）：Claude Desktop 作为 Host，负责接收你的提问并与 Claude 模型交互。
Client（Host 内部专门用于与 MCP Server 建立和维持一对一连接的模块）：当 Claude 模型决定需要访问你的文件系统时，Host 中内置的 MCP Client 会被激活。这个 Client 负责与适当的 MCP Server 建立连接。
Server（提供外部能力或数据的工具） ：在这个例子中，文件系统 MCP Server 会被调用。它负责执行实际的文件扫描操作，访问你的桌面目录，并返回找到的文档列表。

整个流程是这样的：你的问题 → Claude Desktop(Host) → Claude 模型 → 需要文件信息 → MCP Client 连接 → 文件系统 MCP Server → 执行操作 → 返回结果 → Claude 生成回答 → 显示在 Claude Desktop 上。

MCP可以应用于增强型AI助手、知识管理系统、客户服务聊天机器人、内容创作工具、软件开发、金融分析和医疗保健等领域。

详细 MCP 介绍及教程可以查看官方文档：modelcontextprotocol.info/zh-cn/

官方组织的一些 Server：官方的 MCP Server 列表

Agent Skill

"Skills" 这个概念最早由 Anthropic 公司提出，作为其大模型 Claude 的一种能力扩展机制。

Skill 通常指：一个被标准化封装、可被 AI Agent 主动调用，用于完成特定任务的能力单元，是一个可调用可复用的原子能力模块。 它通常具备以下特征：

有明确功能边界（完成一类具体任务）
有稳定输入 / 输出接口
可被模型或 Agent 选择性调用
可复用、可组合
通常与外部工具或代码逻辑绑定

AI 系统之所以需要 Skill，是因为大语言模型本身仅具备理解、推理和生成能力，无法直接执行真实世界中的操作。Skill 作为可调用的执行单元，将模型的决策结果转化为可验证、可复用的实际行为，使 AI 系统从"回答问题"升级为"完成任务"。通过将执行能力模块化为 Skill，系统能够实现清晰的职责分离，提升可扩展性、可维护性和行为可控性，并为 Agent 架构中的自动调度与复杂任务编排提供基础支撑。这使 Skill 成为 AI 系统工程化和规模化落地过程中不可或缺的核心组件。

和 Tool / Function 的区别： Skill 是对 Tool / Function 的"任务级封装"。在复杂系统中，Skill 通常会被注册（Skill Registry），Agent 通过能力描述 + 当前任务进行匹配选择。

和 Prompt Engineering 的关系：Prompt Engineering 解决"如何思考"的问题，核心目标是引导模型进行正确的理解、推理和决策，从系统视角看，Prompt 本质上属于认知层 ，但 Prompt 本身并不负责执行任何真实操作。而Skill 的核心职责是将模型的决策转化为可执行行为，Skill 属于系统中的执行层。因此，Skill 不参与"思考"，只负责"行动"。

在 AI 系统架构中，模型主要负责理解、推理与规划，Skill 负责执行具体操作，而 Agent 则承担调度与编排的角色。

一个标准的 SKILL 技能包模式如下。它本质上是你发给 AI 数字员工的"标准作业程序 (SOP) + 工具箱 + 知识库"三合一包裹；SKILL.md 是指挥官，告诉 AI 什么时候去跑 scripts 里的代码，什么时候去读 references 里的文件。

scss 复制代码

📂refund-calculator/          <-- [文件夹] 技能名称 (只能用小写和短横线)
├── 📄SKILL.md                <-- [必选] 核心说明书 (给AI看的"大脑")
├── 📂scripts/                <-- [可选] 工具箱 (给AI用的"手脚")
│   └── 🐍calc_refund.py      <-- 具体的 Python 脚本
└── 📂references/             <-- [可选] 参考资料库 (给AI查的"字典")
    └── 📊policy_2024.pdf     <-- 标准说明文档或者数据表

OpenAI & GPT

基于转换器的生成式预训练模型（英语：generative pre-trained transformers，GPT）是一种大型语言模型（LLM），也是生成式人工智能的重要框架。首个GPT由OpenAI于2018年推出。GPT模型是基于Transformer模型的人工神经网络，在大型未标记文本数据集上进行预训练，并能够生成类似于人类自然语言的文本。截至2023年，大多数LLM都具备这些特征，并广泛被称为GPT。

--维基百科中关于 GPT（语言模型）的定义
OpenAI，中国大陆也译为开放人工智能研究中心，是一个美国人工智能研究实验室，由非营利组织OpenAI Inc，和其营利组织子公司OpenAI LP所组成。OpenAI进行AI研究的目的是促进和发展友好的人工智能，使人类整体受益。OpenAI系统运行在微软基于Azure的超级计算平台上。

ChatGPT、GPT与大模型三者的关系：ChatGPT是一种特定的GPT应用，GPT是一种大模型，而大模型是一类具有大量参数的深度学习模型。

让我们简单来回顾下 OpenAI 的发展史：

2015 年底成立 OpenAI
2019 年 3 月成立OpenAI LP 子公司，目的为盈利
2020 年 6 月发布 GPT-3 语言模型
2021 年推出 DALL-E（一种深度学习模型，可以从自然语言描述中生成数字图像）
2022 年 11 月 30 日，发布名为 ChatGPT 的自然语言生成式模型，它以对话方式进行交互
2023年3月2日，发布官方ChatGPT API，并允许第三方开发者调用
2023年3月14日，发布 GPT-4，既作为API又作为ChatGPT Plus的一项功能
2024年2月15日，发布 Sora，称该模型能够生成长达一分钟的视频
2024年5月13日，发布新模型GPT-4o，GPT-4o可以处理文字、语音、图像，"o"代表"omni"，即全能的意思
2024年12月9日，发布 Sora Turbo，一个先进的视频生成模型，允许用户生成文本到视频和视频到视频的内容
2024年12月10日，Canvas交互式工作区正式上线，集成到GPT-4o中，用户可以运行Python代码并管理项目
2024年12月20日，宣布推出o3和o3-mini模型，进一步提升推理能力
2025年1月31日，发布o3-mini模型
025年2月2日，ChatGPT上线Deep Research功能（一个系统级的Agent）
2025年2月27日，发布GPT-4.5，直觉模型的巅峰
2025年4月16日，正式发布o3（旗舰）和o4-mini（高效），全能推理旗舰
2025年8月7日，发布GPT-5系列模型（包含gpt-5, gpt-5-mini, gpt-5-nano）并开放API。GPT-5被OpenAI定义为"迄今为止最佳的代码与代理模型"，它实质上融合了GPT系列（知识/直觉）和o系列（推理）的优势。
2025年9月30日，发布Sora 2及独立App，它解决了Sora 1存在的"物理幻觉"问题
2025年10月6日，在DevDay 2025上发布AgentKit（一套可视化的智能体构建工具，类似"AI版乐高"）、ChatGPT Apps平台，并宣布Codex模型回归（曾经的编程模型Codex以"本地终端助手"的形式回归，它允许开发者在命令行中直接与GPT-5级别的代码能力交互）

Anthropic & Claude

Anthropic PBC，是一家美国的人工智能初创企业和公益公司，由OpenAI的前成员创立。Anthropic专注于开发通用AI系统和语言模型，并秉持负责任的AI使用理念。Anthropic由参与OpenAI GPT-2和GPT-3模型开发的前研究人员组成，Anthropic开始开发自己的AI聊天机器人，名为 Claude。
Claude是由美国科技公司Anthropic开发的大型语言模型（基于转换器的生成式预训练模型，GPT）。

官方文档 code.claude.com/docs/zh-CN/... 中定义如下：

Claude Code 是一个代理编码工具，可以读取你的代码库、编辑文件、运行命令，并与你的开发工具集成。可在终端、IDE、桌面应用和浏览器中使用。

Claude Code 是一个由 AI 驱动的编码助手，可帮助你构建功能、修复错误和自动化开发任务。它理解你的整个代码库，可以跨多个文件和工具工作以完成任务。

核心理念：合宪人工智能（Constitutional AI）是Anthropic提出的一种训练方法，该方法的主要特征是不以人力识别和筛查有害输出，而是仅提供原则性指导（被形象地称呼为"宪法"），让AI据此自行判断输出的内容是否适宜，从而以自我改进的方式来训练无害的模型。

当前还在活跃的几个重要版本如下：

版本	子版本	发布日期
Claude 4	Sonnet	2025年5月22日
	Opus	2025年5月22日
Claude 4.1	Opus	2025年8月6日
Claude 4.5	Sonnet	2025年9月30日
	Haiku	2025年10月15日
	Opus	2025年11月24日
Claude 4.6	Opus	2026年2月5日
	Sonnet	2026年2月17日

2026年2月5日，Anthropic公布了Claude 4.6 Opus，提升Cowork AI在办公和自动程序撰写工作中的表现。Claude Opus 4.6 模型在规划、代码审查、调试和处理大型代码库方面表现出色，在多项热门基准测试中均获取了业界领先的成绩。Claude 现在可以允许多个 AI 代理程序并发，分拆和协调复杂任务，从而显著提高大规模开发项目的效率。

Anthropic 产品发布时间线可以看：fishersama.com/anthropic-t...

xAI & Grok

xAI公司（英语：xAI Corp.）是埃隆·马斯克于2023年7月12日创办的人工智能初创企业。
Grok是xAI基于大型语言模型开发的生成式人工智能聊天机器人，类似于ChatGPT。它能够实时回答用户的问题，并利用X社交媒体平台的数据进行回应。

版本迭代：

‌Grok 1‌（2023年11月）：首发，集成于 X Premium+
‌Grok 2‌（2024年8月）：增强推理、编码、图像生成，LMSYS 排名第三
‌Grok 3‌（2025年2月）：免费向公众开放，登顶 App Store 榜首
‌Grok 4‌（2025年7月）：256K 上下文窗口，344 token/s 速度，支持编程专用模型
‌Grok 4.1‌（2025年11月）与 ‌Grok 4.20‌（2026年2月）：持续优化安全与性能

Grok的核心功能：

智能问答与知识处理
图像生成（生图）
多模态交互
API与开发者支持

xAI 与 Grok 的协同创新：数字擎天柱（Digital Optimus）：

xAI 联合 Tesla 推出"‌数字擎天柱‌"（又称"巨硬"），是一个‌AI 数字员工代理‌，可模拟人类操作电脑界面（键盘、鼠标、屏幕理解），执行重复性办公任务。 ‌

与 Grok 的关系‌：Grok 扮演 System 2（思考/决策）‌：负责高层理解、规划与判断； ‌数字擎天柱负责 System 1（执行）‌：直接操作软件完成具体动作

目标‌：打造"比一人公司更高效"的自动化工作流，对标 Anthropic 的 Claude Cowork、OpenAI 的 OpenClaw 等。

DeekSeek

深度求索（DeepSeek），全称杭州深度求索人工智能基础技术研究有限公司，是中国一家人工智能与大型语言模型公司。

DeepSeek的以相对较小的成本却获得极具竞争力的性能，被认为可能足以挑战美国人工智能领域模型优势地位。

DeepSeek的技术演进可清晰地划分为四个阶段：

基石奠定模型（2023年）：以DeepSeek-Coder和DeepSeek-LLM为代表，验证了在有限算力下训练高质量稠密模型的能力，确立了「代码+数学」为核心竞争力的差异化路线。
架构革新与MOE化（2024年）：通过DeepSeek-V2和V3，在大模型架构底层进行了革命性创新。提出了多头潜在注意力和细粒度专家混合架构，彻底解决了长上下文推理的显存瓶颈与训练成本问题，以极低的成本实现了对标顶尖闭源模型GPT-4 Turbo的效果。
推理与系统2思维（2025年）：以DeepSeek-R1为里程碑，探索出纯强化学习驱动的推理能力涌现路径，证明了无需大规模监督微调，即可激发模型的自我反思与修正能力。随后通过V3.1、V3.2系列将这种「思考」能力泛化至工具调用与Agent场景。
记忆与因果视觉（2025末-2026初）：在DeepSeek-OCR-2中引入视觉因果流，在Engram架构中提出基于查表的可扩展条件记忆机制，试图从根本上突破Transformer的上下文长度限制与视觉理解的逻辑缺陷，为下一代模型DeepSeek-V4奠定基础。