AI核心技术术语详解

AI 核心技术术语详解

学习路线图

复制代码

AI 愿景与目标
    ↓
提示与交互工程
    ↓
Agent 架构与协作
    ↓
推理范式与策略
    ↓
知识增强技术
    ↓
模型基础与优化
    ↓
前沿应用与落地

一、AI 愿景与目标

AGI（Artificial General Intelligence）

定义：通用人工智能，具备像人类一样学习任何知识、完成任何任务的能力

特点：

跨领域通用能力
自主学习和适应
无需专门训练即可完成新任务

当前状态：尚未实现，仍是研究目标

示例：

复制代码

AGI 应具备的能力：
- 学会驾驶汽车（物理操作）
- 理解复杂数学定理（抽象思维）
- 创作音乐作品（创意能力）
- 与人共情交流（社交能力）

ASI（Artificial Super Intelligence）

定义：超级人工智能，智力水平超越全人类总和的 AI

特点：

自我改进和迭代
指数级能力增长
可能产生超出人类理解的能力

当前状态：纯理论探讨，距离实现非常遥远

AIGC（AI-Generated Content）

定义：人工智能生成内容，指由 AI 自动创作或辅助创作的各种形式内容

类型：

类型	示例
文本	文章、代码、诗歌
图像	绘画、设计图、头像
音频	音乐、语音合成
视频	动画、短片、特效
数据	模拟数据、合成数据

应用示例：

python 复制代码

# 使用 Stable Diffusion 生成图像
from diffusers import StableDiffusionPipeline

pipe = StableDiffusionPipeline.from_pretrained("runwayml/stable-diffusion-v1-5")
image = pipe("a beautiful sunset over the ocean").images[0]
image.save("sunset.png")

Vibe Coding

定义：基于智能代理框架的 AI 协作开发模式，通过自然语言描述需求，由 AI 多智能体分工协作完成全流程开发

核心理念："人定需求，AI 做执行"

二、提示与交互工程

Prompt Engineering（提示词工程）

定义：研究如何设计和优化提示词，以引导 AI 模型生成期望的输出

核心目标：让模型准确理解用户意图并生成高质量响应

四要素框架：

要素	作用	示例
角色	设定 AI 身份和专业背景	"你是一位资深 Python 工程师"
任务	明确要完成的具体任务	"请帮我优化这段代码的性能"
背景	提供必要的上下文信息	"这段代码处理的是百万级数据"
输出要求	规定输出格式和风格	"请以 Markdown 格式输出，包含代码和解释"

示例：

复制代码

你是一位资深数据分析师。请分析以下销售数据，计算月度增长率，并生成一份可视化报告。

数据：
- 1月：100万元
- 2月：120万元
- 3月：115万元
- 4月：135万元

要求：
1. 计算每月增长率
2. 分析增长趋势
3. 提供业务建议
4. 输出格式：Markdown 表格 + 文字分析

Context Engineering（上下文工程）

定义：管理和优化提供给 AI 模型的上下文信息，在有限的窗口内最大化信息价值

核心挑战：上下文窗口有限，需要决定"放什么、丢什么"

三大场景：

文档太长：切片、检索、只喂相关片段（RAG）
长对话维护：滑动窗口、摘要压缩、关键信息提取
多工具调用：动态工具注入、工具分类索引

注意力分布规律：

复制代码

Prompt 开头 ←←← 中间 ←←← 结尾
注意力：  高          低          高

优化策略：

关键信息放在开头或结尾
使用结构化格式（列表、表格）
定期压缩历史对话

Harness Engineering

定义：标准化管理 AI 系统的输入输出，建立统一的交互规范和流程

核心目标：提升系统的可预测性、可维护性和可扩展性

组件：

输入验证和格式化
输出解析和结构化
错误处理和回退机制
性能监控和日志记录

HITL（Human-in-the-Loop）

定义：人在回路，指在 AI 系统中引入人工审核和干预环节

应用场景：

AI 处理常规任务
人工审核复杂或敏感任务
持续收集反馈优化模型

示例：

复制代码

智能客服流程：
1. 用户提问
2. AI 生成初步回答
3. 人工审核（复杂问题）
4. 返回最终答案
5. 收集反馈用于模型优化

三、Agent 架构与协作

Agent（智能体）

定义：具备自主感知、规划、记忆和工具使用能力的数字化实体

核心能力：

能力	描述	示例
感知	理解用户指令和环境信息	解析自然语言问题
规划	将复杂任务分解为子任务	制定执行计划
记忆	存储和检索历史信息	记住用户偏好
工具	调用外部 API 和服务	查询数据库、调用计算器
反馈	根据结果调整策略	失败后重试或换方法

架构示例：

python 复制代码

class Agent:
    def __init__(self, llm, tools, memory):
        self.llm = llm          # 大语言模型
        self.tools = tools      # 可用工具列表
        self.memory = memory    # 记忆模块
    
    def run(self, task):
        # 1. 理解任务
        understanding = self.llm.analyze(task)
        
        # 2. 制定计划
        plan = self.llm.plan(understanding)
        
        # 3. 执行计划
        for step in plan:
            if step.needs_tool:
                result = self.tools.call(step.tool_name, step.params)
                self.memory.store(result)
            else:
                result = self.llm.generate(step.prompt)
        
        # 4. 返回结果
        return self.llm.summarize(results)

Role-playing Agents（角色扮演智能体）

定义：赋予 AI 特定身份、性格和专业能力的智能体

应用场景：

模拟团队协作（产品经理、设计师、工程师）
模拟专家对话（医生、律师、顾问）
模拟用户测试（不同用户画像）

示例：

复制代码

角色设定：
- 产品经理：关注用户体验和市场需求
- 后端工程师：关注技术实现和性能
- UI 设计师：关注视觉设计和交互
- QA 测试员：关注质量保证和边界情况

协作流程：
产品经理提出需求 → UI 设计师设计方案 → 
后端工程师实现 → QA 测试员验证 → 产品经理验收

Workflow（工作流）

定义：按预定顺序编排的任务流程，每个步骤由特定角色或工具执行

特点：

确定性强、可调试性高
适合流程清晰、可拆解的任务
便于监控和优化

类型：

Chain（链式）：任务分解为一系列顺序执行的子任务
Routing（路由）：通过意图识别分派到不同处理路径

示例（链式工作流）：

复制代码

用户提问 → 意图识别 → 知识库检索 → 
LLM 生成回答 → 内容审核 → 返回结果

Function Calling（函数调用）

定义：让 AI 模型根据需要调用外部函数或 API 的能力

核心价值：

扩展模型能力边界
实现实时数据查询
执行具体操作（发送邮件、创建文件等）

示例：

python 复制代码

# 定义可用工具
tools = [
    {
        "name": "get_weather",
        "description": "查询指定城市的天气",
        "parameters": {
            "city": {"type": "string", "description": "城市名称"}
        }
    },
    {
        "name": "send_email",
        "description": "发送邮件",
        "parameters": {
            "to": {"type": "string", "description": "收件人邮箱"},
            "subject": {"type": "string", "description": "邮件主题"},
            "content": {"type": "string", "description": "邮件内容"}
        }
    }
]

# 模型生成工具调用
user_query = "帮我查一下北京明天的天气，然后发给张三"
model_response = {
    "thought": "需要先查北京天气，然后发送邮件",
    "action": {
        "name": "get_weather",
        "parameters": {"city": "北京"}
    }
}

Skill（技能）

定义：封装多个工具调用的复合能力，形成可复用的技能模块

示例：

复制代码

技能：数据分析报告
包含工具：
- 查询数据库
- 数据清洗
- 图表生成
- 报告撰写

使用场景：用户请求分析销售数据时，自动组合调用这些工具

MCP（Model Context Protocol）

定义：AI 界的 USB-C 接口，一种标准化的 AI 模型与外部工具通信的协议

核心目标：实现不同 AI 系统与工具的互操作性

特点：

标准化接口定义
自动工具发现和注册
统一的调用规范

A2A Protocol（Agent-to-Agent Protocol）

定义：智能体之间协作和通信的协议

核心目标：支持多智能体系统中的高效协作

组件：

消息格式定义
通信机制
协作协议
状态同步

四、推理范式

CoT（Chain of Thought）

定义：思维链，让模型把推理过程一步步写出来

核心思想：通过延长生成序列，将高难度单步预测转化为低难度多步预测

示例：

复制代码

问题：小明有 5 个苹果，小红有 3 个苹果，他们一共有多少个？

CoT 推理过程：
1. 小明有 5 个苹果
2. 小红有 3 个苹果
3. 总数 = 小明的苹果数 + 小红的苹果数
4. 5 + 3 = 8
5. 答案：8 个

Self-ask（自问自答）

定义：让模型反问自己，把大问题拆成多个小问题逐步求解

适用场景：事实链路长的问题

示例：

复制代码

问题：2024 年奥运会在哪里举办？

Self-ask 过程：
1. 2024 年奥运会是夏季还是冬季？→ 夏季奥运会
2. 最近的夏季奥运会是哪年？→ 2020 年东京
3. 下一届夏季奥运会是什么时候？→ 2024 年
4. 2024 年夏季奥运会举办地是哪里？→ 巴黎
5. 答案：法国巴黎

Plan-and-Execute（计划与执行）

定义：先生成完整计划，再逐步执行

适用场景：多步骤、长时间任务

示例：

复制代码

任务：写一篇关于 AI 发展趋势的文章

Plan：
1. 收集最新 AI 发展资讯
2. 整理关键技术趋势
3. 分析市场和应用场景
4. 撰写文章大纲
5. 分章节撰写内容
6. 修改和润色

Execute：按计划逐步执行每个步骤

ReAct（Reason + Act）

定义：推理 + 行动，在推理和外部行动之间交替进行

适用场景：需要查询信息、调用工具的任务

流程：

复制代码

思考 → 行动 → 观察 → 思考 → 行动 → 观察 → ... → 得出答案

ToT（Tree of Thoughts）

定义：树状思维，生成多条思路分支，评估后选最优

适用场景：解谜、规划任务

示例：

复制代码

问题：如何从 A 地到 B 地？

思路分支：
1. 自驾：时间灵活，但可能堵车
2. 高铁：速度快，但需要提前购票
3. 飞机：最快，但价格高
4. 长途汽车：便宜，但耗时久

评估选择：综合时间、成本、便利性，选择高铁

Reflexion（反思迭代）

定义：试错 → 反思 → 重试，通过自我纠错不断优化

适用场景：代码生成、需要验证的任务

流程：

复制代码

执行 → 验证 → 发现错误 → 分析原因 → 修改方案 → 重试

五、知识增强

Embedding（嵌入）

定义：将文字、图像等离散数据转换为连续向量的过程，语义相近的数据在向量空间中距离也相近

数学表示：

复制代码

文字 "猫" → 向量 [0.12, 0.34, -0.56, 0.78, ...]
文字 "狗" → 向量 [0.15, 0.31, -0.52, 0.75, ...]
文字 "苹果" → 向量 [-0.45, 0.23, 0.67, -0.12, ...]

相似度计算：cos(猫, 狗) ≈ 0.92（高相似）
           cos(猫, 苹果) ≈ 0.35（低相似）

应用：

语义搜索
文本分类
聚类分析
推荐系统

Vector Database（向量数据库）

定义：专门用于存储和检索向量数据的数据库

核心能力：

高效的向量相似性搜索
支持大规模向量存储
实时索引和更新

主流产品：

产品	特点
Pinecone	托管服务，易用性高
Milvus	开源，性能优异
Weaviate	开源，支持 GraphQL
Chroma	轻量级，适合开发测试

使用示例：

python 复制代码

import chromadb

# 创建客户端
client = chromadb.Client()

# 创建集合
collection = client.create_collection(name="documents")

# 添加文档向量
collection.add(
    documents=["文档1内容", "文档2内容", "文档3内容"],
    embeddings=[vec1, vec2, vec3],
    ids=["doc1", "doc2", "doc3"]
)

# 查询相似文档
results = collection.query(
    query_embeddings=[query_vec],
    n_results=3
)

RAG（Retrieval-Augmented Generation）

定义：检索增强生成，先从外部知识库检索相关信息，再让模型基于检索到的信息生成回答

核心流程：

复制代码

用户提问 → 向量化 → 向量检索 → 
获取相关文档 → 构建 Prompt → LLM 生成回答

优势：

减少幻觉问题
支持最新知识
可追溯信息来源
降低对模型参数的依赖

架构示例：

python 复制代码

class RAGSystem:
    def __init__(self, embedding_model, vector_db, llm):
        self.embedding_model = embedding_model
        self.vector_db = vector_db
        self.llm = llm
    
    def query(self, question):
        # 1. 向量化问题
        query_vec = self.embedding_model.encode(question)
        
        # 2. 检索相关文档
        docs = self.vector_db.search(query_vec, top_k=3)
        
        # 3. 构建 Prompt
        prompt = f"""基于以下文档回答问题：
        
        {docs}
        
        问题：{question}
        """
        
        # 4. 生成回答
        answer = self.llm.generate(prompt)
        return answer

Fine-tuning（微调）

定义：在预训练模型基础上，使用特定领域数据继续训练，使模型适配特定任务

类型：

类型	数据量要求	计算成本	适用场景
全参数微调	大量数据	高	领域迁移、任务适配
LoRA	少量数据	低	快速适配、低成本微调
Adapter	中等数据	中	多任务学习

流程：

复制代码

预训练模型 → 准备训练数据 → 配置微调参数 → 
训练 → 评估 → 部署

六、模型基础与优化

NLP / CV

NLP（Natural Language Processing）：自然语言处理，研究计算机如何理解和处理人类语言

CV（Computer Vision）：计算机视觉，研究计算机如何理解和处理图像和视频

CNN / RNN / LSTM

CNN（Convolutional Neural Network）：卷积神经网络，主要用于图像识别和处理

RNN（Recurrent Neural Network）：循环神经网络，主要用于序列数据处理

LSTM（Long Short-Term Memory）：长短期记忆网络，RNN 的改进版本，解决梯度消失问题

对比：

网络类型	优势	劣势	适用场景
CNN	局部特征提取，参数共享	不擅长序列建模	图像识别
RNN	序列建模能力	梯度消失，长序列处理差	短文本处理
LSTM	长序列记忆	计算复杂度高	长文本、语音

Transformer

定义：基于自注意力机制的神经网络架构，是现代大模型的核心

核心创新：

自注意力机制：计算词与词之间的关联度
多头注意力：多组不同的注意力同时建模
位置编码：引入序列顺序信息
残差连接和层归一化：稳定训练过程

架构组成：

编码器（Encoder）：理解输入序列
解码器（Decoder）：生成输出序列

BERT

定义：Bidirectional Encoder Representations from Transformers，双向预训练模型

特点：

使用掩码语言模型（MLM）预训练
双向理解上下文
适合理解类任务（分类、问答、NER）

示例：

复制代码

输入：[CLS] 我 [MASK] 喜欢 苹果。 [SEP]
目标：预测 [MASK] 的位置应该填什么词
可能答案：很、最、都

MoE（Mixture of Experts）

定义：专家混合模型，将模型分为多个专家模块，根据输入动态选择专家处理

核心思想："术业有专攻"，不同专家擅长不同领域

优势：

模型容量大但推理成本可控
支持高效扩展
专家可以独立优化

示例：

复制代码

输入分类：
- 代码相关问题 → 代码专家
- 数学相关问题 → 数学专家
- 写作相关问题 → 写作专家
- 多领域问题 → 多个专家协作

RLHF（Reinforcement Learning from Human Feedback）

定义：基于人类反馈的强化学习，通过人类标注数据训练奖励模型，再用强化学习优化语言模型

流程：

复制代码

1. 收集人类反馈数据（对模型输出排序）
2. 训练奖励模型（Reward Model）
3. 使用 PPO 算法优化语言模型
4. 迭代优化

核心目标：让模型输出符合人类偏好

七、前沿应用

多模态 AI

定义：能够处理文本、图像、语音、视频等多种形式内容的 AI 系统

能力：

图文理解：理解图像内容并生成描述
语音交互：语音识别和合成
视频分析：理解视频内容
跨模态生成：从一种模态生成另一种模态

示例：

复制代码

输入：一张猫的图片
输出："这是一只可爱的橘猫，正在沙发上睡觉"

输入："画一只在海边冲浪的猫"
输出：生成对应的图像

Agent 应用

定义：基于智能体技术的应用，具备自主决策和执行能力

典型应用：

智能客服：自动回答用户问题
代码助手：辅助编写代码
数据分析：自动完成数据处理和报告生成
自动化办公：自动完成日常办公任务

Edge AI

定义：在边缘设备上运行的 AI 模型，无需依赖云端服务器

优势：

低延迟：本地推理，响应快
隐私保护：数据不离开设备
离线可用：无需网络连接
成本低：减少云端资源消耗

应用场景：

智能手机：拍照识别、语音助手
智能家居：智能音箱、安防摄像头
自动驾驶：实时感知和决策
IoT 设备：智能传感器、工业控制

八、术语速查表

术语	全称	核心含义
AGI	Artificial General Intelligence	通用人工智能
ASI	Artificial Super Intelligence	超级人工智能
AIGC	AI-Generated Content	AI 生成内容
LLM	Large Language Model	大语言模型
NLP	Natural Language Processing	自然语言处理
CV	Computer Vision	计算机视觉
RNN	Recurrent Neural Network	循环神经网络
LSTM	Long Short-Term Memory	长短期记忆网络
CNN	Convolutional Neural Network	卷积神经网络
Transformer	-	基于注意力的神经网络架构
BERT	Bidirectional Encoder Representations	双向预训练模型
GPT	Generative Pre-trained Transformer	生成式预训练模型
MoE	Mixture of Experts	专家混合模型
RLHF	Reinforcement Learning from Human Feedback	基于人类反馈的强化学习
RAG	Retrieval-Augmented Generation	检索增强生成
Embedding	-	文本向量化表示
Token	-	文本最小处理单位
Prompt	-	提示词/指令
Agent	-	智能体
MCP	Model Context Protocol	AI 工具通信协议
LoRA	Low-Rank Adaptation	低秩适配微调
PPO	Proximal Policy Optimization	近端策略优化
API	Application Programming Interface	应用程序接口
SDK	Software Development Kit	软件开发工具包