AI核心技术术语详解

AI 核心技术术语详解

学习路线图

复制代码
AI 愿景与目标
    ↓
提示与交互工程
    ↓
Agent 架构与协作
    ↓
推理范式与策略
    ↓
知识增强技术
    ↓
模型基础与优化
    ↓
前沿应用与落地

一、AI 愿景与目标

AGI(Artificial General Intelligence)

定义:通用人工智能,具备像人类一样学习任何知识、完成任何任务的能力

特点

  • 跨领域通用能力
  • 自主学习和适应
  • 无需专门训练即可完成新任务

当前状态:尚未实现,仍是研究目标

示例

复制代码
AGI 应具备的能力:
- 学会驾驶汽车(物理操作)
- 理解复杂数学定理(抽象思维)
- 创作音乐作品(创意能力)
- 与人共情交流(社交能力)

ASI(Artificial Super Intelligence)

定义:超级人工智能,智力水平超越全人类总和的 AI

特点

  • 自我改进和迭代
  • 指数级能力增长
  • 可能产生超出人类理解的能力

当前状态:纯理论探讨,距离实现非常遥远

AIGC(AI-Generated Content)

定义:人工智能生成内容,指由 AI 自动创作或辅助创作的各种形式内容

类型

类型 示例
文本 文章、代码、诗歌
图像 绘画、设计图、头像
音频 音乐、语音合成
视频 动画、短片、特效
数据 模拟数据、合成数据

应用示例

python 复制代码
# 使用 Stable Diffusion 生成图像
from diffusers import StableDiffusionPipeline

pipe = StableDiffusionPipeline.from_pretrained("runwayml/stable-diffusion-v1-5")
image = pipe("a beautiful sunset over the ocean").images[0]
image.save("sunset.png")

Vibe Coding

定义:基于智能代理框架的 AI 协作开发模式,通过自然语言描述需求,由 AI 多智能体分工协作完成全流程开发

核心理念:"人定需求,AI 做执行"


二、提示与交互工程

Prompt Engineering(提示词工程)

定义:研究如何设计和优化提示词,以引导 AI 模型生成期望的输出

核心目标:让模型准确理解用户意图并生成高质量响应

四要素框架

要素 作用 示例
角色 设定 AI 身份和专业背景 "你是一位资深 Python 工程师"
任务 明确要完成的具体任务 "请帮我优化这段代码的性能"
背景 提供必要的上下文信息 "这段代码处理的是百万级数据"
输出要求 规定输出格式和风格 "请以 Markdown 格式输出,包含代码和解释"

示例

复制代码
你是一位资深数据分析师。请分析以下销售数据,计算月度增长率,并生成一份可视化报告。

数据:
- 1月:100万元
- 2月:120万元
- 3月:115万元
- 4月:135万元

要求:
1. 计算每月增长率
2. 分析增长趋势
3. 提供业务建议
4. 输出格式:Markdown 表格 + 文字分析

Context Engineering(上下文工程)

定义:管理和优化提供给 AI 模型的上下文信息,在有限的窗口内最大化信息价值

核心挑战:上下文窗口有限,需要决定"放什么、丢什么"

三大场景

  1. 文档太长:切片、检索、只喂相关片段(RAG)
  2. 长对话维护:滑动窗口、摘要压缩、关键信息提取
  3. 多工具调用:动态工具注入、工具分类索引

注意力分布规律

复制代码
Prompt 开头 ←←← 中间 ←←← 结尾
注意力:  高          低          高

优化策略

  • 关键信息放在开头或结尾
  • 使用结构化格式(列表、表格)
  • 定期压缩历史对话

Harness Engineering

定义:标准化管理 AI 系统的输入输出,建立统一的交互规范和流程

核心目标:提升系统的可预测性、可维护性和可扩展性

组件

  • 输入验证和格式化
  • 输出解析和结构化
  • 错误处理和回退机制
  • 性能监控和日志记录

HITL(Human-in-the-Loop)

定义:人在回路,指在 AI 系统中引入人工审核和干预环节

应用场景

  • AI 处理常规任务
  • 人工审核复杂或敏感任务
  • 持续收集反馈优化模型

示例

复制代码
智能客服流程:
1. 用户提问
2. AI 生成初步回答
3. 人工审核(复杂问题)
4. 返回最终答案
5. 收集反馈用于模型优化

三、Agent 架构与协作

Agent(智能体)

定义:具备自主感知、规划、记忆和工具使用能力的数字化实体

核心能力

能力 描述 示例
感知 理解用户指令和环境信息 解析自然语言问题
规划 将复杂任务分解为子任务 制定执行计划
记忆 存储和检索历史信息 记住用户偏好
工具 调用外部 API 和服务 查询数据库、调用计算器
反馈 根据结果调整策略 失败后重试或换方法

架构示例

python 复制代码
class Agent:
    def __init__(self, llm, tools, memory):
        self.llm = llm          # 大语言模型
        self.tools = tools      # 可用工具列表
        self.memory = memory    # 记忆模块
    
    def run(self, task):
        # 1. 理解任务
        understanding = self.llm.analyze(task)
        
        # 2. 制定计划
        plan = self.llm.plan(understanding)
        
        # 3. 执行计划
        for step in plan:
            if step.needs_tool:
                result = self.tools.call(step.tool_name, step.params)
                self.memory.store(result)
            else:
                result = self.llm.generate(step.prompt)
        
        # 4. 返回结果
        return self.llm.summarize(results)

Role-playing Agents(角色扮演智能体)

定义:赋予 AI 特定身份、性格和专业能力的智能体

应用场景

  • 模拟团队协作(产品经理、设计师、工程师)
  • 模拟专家对话(医生、律师、顾问)
  • 模拟用户测试(不同用户画像)

示例

复制代码
角色设定:
- 产品经理:关注用户体验和市场需求
- 后端工程师:关注技术实现和性能
- UI 设计师:关注视觉设计和交互
- QA 测试员:关注质量保证和边界情况

协作流程:
产品经理提出需求 → UI 设计师设计方案 → 
后端工程师实现 → QA 测试员验证 → 产品经理验收

Workflow(工作流)

定义:按预定顺序编排的任务流程,每个步骤由特定角色或工具执行

特点

  • 确定性强、可调试性高
  • 适合流程清晰、可拆解的任务
  • 便于监控和优化

类型

  • Chain(链式):任务分解为一系列顺序执行的子任务
  • Routing(路由):通过意图识别分派到不同处理路径

示例(链式工作流)

复制代码
用户提问 → 意图识别 → 知识库检索 → 
LLM 生成回答 → 内容审核 → 返回结果

Function Calling(函数调用)

定义:让 AI 模型根据需要调用外部函数或 API 的能力

核心价值

  • 扩展模型能力边界
  • 实现实时数据查询
  • 执行具体操作(发送邮件、创建文件等)

示例

python 复制代码
# 定义可用工具
tools = [
    {
        "name": "get_weather",
        "description": "查询指定城市的天气",
        "parameters": {
            "city": {"type": "string", "description": "城市名称"}
        }
    },
    {
        "name": "send_email",
        "description": "发送邮件",
        "parameters": {
            "to": {"type": "string", "description": "收件人邮箱"},
            "subject": {"type": "string", "description": "邮件主题"},
            "content": {"type": "string", "description": "邮件内容"}
        }
    }
]

# 模型生成工具调用
user_query = "帮我查一下北京明天的天气,然后发给张三"
model_response = {
    "thought": "需要先查北京天气,然后发送邮件",
    "action": {
        "name": "get_weather",
        "parameters": {"city": "北京"}
    }
}

Skill(技能)

定义:封装多个工具调用的复合能力,形成可复用的技能模块

示例

复制代码
技能:数据分析报告
包含工具:
- 查询数据库
- 数据清洗
- 图表生成
- 报告撰写

使用场景:用户请求分析销售数据时,自动组合调用这些工具

MCP(Model Context Protocol)

定义:AI 界的 USB-C 接口,一种标准化的 AI 模型与外部工具通信的协议

核心目标:实现不同 AI 系统与工具的互操作性

特点

  • 标准化接口定义
  • 自动工具发现和注册
  • 统一的调用规范

A2A Protocol(Agent-to-Agent Protocol)

定义:智能体之间协作和通信的协议

核心目标:支持多智能体系统中的高效协作

组件

  • 消息格式定义
  • 通信机制
  • 协作协议
  • 状态同步

四、推理范式

CoT(Chain of Thought)

定义:思维链,让模型把推理过程一步步写出来

核心思想:通过延长生成序列,将高难度单步预测转化为低难度多步预测

示例

复制代码
问题:小明有 5 个苹果,小红有 3 个苹果,他们一共有多少个?

CoT 推理过程:
1. 小明有 5 个苹果
2. 小红有 3 个苹果
3. 总数 = 小明的苹果数 + 小红的苹果数
4. 5 + 3 = 8
5. 答案:8 个

Self-ask(自问自答)

定义:让模型反问自己,把大问题拆成多个小问题逐步求解

适用场景:事实链路长的问题

示例

复制代码
问题:2024 年奥运会在哪里举办?

Self-ask 过程:
1. 2024 年奥运会是夏季还是冬季?→ 夏季奥运会
2. 最近的夏季奥运会是哪年?→ 2020 年东京
3. 下一届夏季奥运会是什么时候?→ 2024 年
4. 2024 年夏季奥运会举办地是哪里?→ 巴黎
5. 答案:法国巴黎

Plan-and-Execute(计划与执行)

定义:先生成完整计划,再逐步执行

适用场景:多步骤、长时间任务

示例

复制代码
任务:写一篇关于 AI 发展趋势的文章

Plan:
1. 收集最新 AI 发展资讯
2. 整理关键技术趋势
3. 分析市场和应用场景
4. 撰写文章大纲
5. 分章节撰写内容
6. 修改和润色

Execute:按计划逐步执行每个步骤

ReAct(Reason + Act)

定义:推理 + 行动,在推理和外部行动之间交替进行

适用场景:需要查询信息、调用工具的任务

流程

复制代码
思考 → 行动 → 观察 → 思考 → 行动 → 观察 → ... → 得出答案

ToT(Tree of Thoughts)

定义:树状思维,生成多条思路分支,评估后选最优

适用场景:解谜、规划任务

示例

复制代码
问题:如何从 A 地到 B 地?

思路分支:
1. 自驾:时间灵活,但可能堵车
2. 高铁:速度快,但需要提前购票
3. 飞机:最快,但价格高
4. 长途汽车:便宜,但耗时久

评估选择:综合时间、成本、便利性,选择高铁

Reflexion(反思迭代)

定义:试错 → 反思 → 重试,通过自我纠错不断优化

适用场景:代码生成、需要验证的任务

流程

复制代码
执行 → 验证 → 发现错误 → 分析原因 → 修改方案 → 重试

五、知识增强

Embedding(嵌入)

定义:将文字、图像等离散数据转换为连续向量的过程,语义相近的数据在向量空间中距离也相近

数学表示

复制代码
文字 "猫" → 向量 [0.12, 0.34, -0.56, 0.78, ...]
文字 "狗" → 向量 [0.15, 0.31, -0.52, 0.75, ...]
文字 "苹果" → 向量 [-0.45, 0.23, 0.67, -0.12, ...]

相似度计算:cos(猫, 狗) ≈ 0.92(高相似)
           cos(猫, 苹果) ≈ 0.35(低相似)

应用

  • 语义搜索
  • 文本分类
  • 聚类分析
  • 推荐系统

Vector Database(向量数据库)

定义:专门用于存储和检索向量数据的数据库

核心能力

  • 高效的向量相似性搜索
  • 支持大规模向量存储
  • 实时索引和更新

主流产品

产品 特点
Pinecone 托管服务,易用性高
Milvus 开源,性能优异
Weaviate 开源,支持 GraphQL
Chroma 轻量级,适合开发测试

使用示例

python 复制代码
import chromadb

# 创建客户端
client = chromadb.Client()

# 创建集合
collection = client.create_collection(name="documents")

# 添加文档向量
collection.add(
    documents=["文档1内容", "文档2内容", "文档3内容"],
    embeddings=[vec1, vec2, vec3],
    ids=["doc1", "doc2", "doc3"]
)

# 查询相似文档
results = collection.query(
    query_embeddings=[query_vec],
    n_results=3
)

RAG(Retrieval-Augmented Generation)

定义:检索增强生成,先从外部知识库检索相关信息,再让模型基于检索到的信息生成回答

核心流程

复制代码
用户提问 → 向量化 → 向量检索 → 
获取相关文档 → 构建 Prompt → LLM 生成回答

优势

  • 减少幻觉问题
  • 支持最新知识
  • 可追溯信息来源
  • 降低对模型参数的依赖

架构示例

python 复制代码
class RAGSystem:
    def __init__(self, embedding_model, vector_db, llm):
        self.embedding_model = embedding_model
        self.vector_db = vector_db
        self.llm = llm
    
    def query(self, question):
        # 1. 向量化问题
        query_vec = self.embedding_model.encode(question)
        
        # 2. 检索相关文档
        docs = self.vector_db.search(query_vec, top_k=3)
        
        # 3. 构建 Prompt
        prompt = f"""基于以下文档回答问题:
        
        {docs}
        
        问题:{question}
        """
        
        # 4. 生成回答
        answer = self.llm.generate(prompt)
        return answer

Fine-tuning(微调)

定义:在预训练模型基础上,使用特定领域数据继续训练,使模型适配特定任务

类型

类型 数据量要求 计算成本 适用场景
全参数微调 大量数据 领域迁移、任务适配
LoRA 少量数据 快速适配、低成本微调
Adapter 中等数据 多任务学习

流程

复制代码
预训练模型 → 准备训练数据 → 配置微调参数 → 
训练 → 评估 → 部署

六、模型基础与优化

NLP / CV

NLP(Natural Language Processing):自然语言处理,研究计算机如何理解和处理人类语言

CV(Computer Vision):计算机视觉,研究计算机如何理解和处理图像和视频

CNN / RNN / LSTM

CNN(Convolutional Neural Network):卷积神经网络,主要用于图像识别和处理

RNN(Recurrent Neural Network):循环神经网络,主要用于序列数据处理

LSTM(Long Short-Term Memory):长短期记忆网络,RNN 的改进版本,解决梯度消失问题

对比

网络类型 优势 劣势 适用场景
CNN 局部特征提取,参数共享 不擅长序列建模 图像识别
RNN 序列建模能力 梯度消失,长序列处理差 短文本处理
LSTM 长序列记忆 计算复杂度高 长文本、语音

Transformer

定义:基于自注意力机制的神经网络架构,是现代大模型的核心

核心创新

  • 自注意力机制:计算词与词之间的关联度
  • 多头注意力:多组不同的注意力同时建模
  • 位置编码:引入序列顺序信息
  • 残差连接和层归一化:稳定训练过程

架构组成

  • 编码器(Encoder):理解输入序列
  • 解码器(Decoder):生成输出序列

BERT

定义:Bidirectional Encoder Representations from Transformers,双向预训练模型

特点

  • 使用掩码语言模型(MLM)预训练
  • 双向理解上下文
  • 适合理解类任务(分类、问答、NER)

示例

复制代码
输入:[CLS] 我 [MASK] 喜欢 苹果。 [SEP]
目标:预测 [MASK] 的位置应该填什么词
可能答案:很、最、都

MoE(Mixture of Experts)

定义:专家混合模型,将模型分为多个专家模块,根据输入动态选择专家处理

核心思想:"术业有专攻",不同专家擅长不同领域

优势

  • 模型容量大但推理成本可控
  • 支持高效扩展
  • 专家可以独立优化

示例

复制代码
输入分类:
- 代码相关问题 → 代码专家
- 数学相关问题 → 数学专家
- 写作相关问题 → 写作专家
- 多领域问题 → 多个专家协作

RLHF(Reinforcement Learning from Human Feedback)

定义:基于人类反馈的强化学习,通过人类标注数据训练奖励模型,再用强化学习优化语言模型

流程

复制代码
1. 收集人类反馈数据(对模型输出排序)
2. 训练奖励模型(Reward Model)
3. 使用 PPO 算法优化语言模型
4. 迭代优化

核心目标:让模型输出符合人类偏好


七、前沿应用

多模态 AI

定义:能够处理文本、图像、语音、视频等多种形式内容的 AI 系统

能力

  • 图文理解:理解图像内容并生成描述
  • 语音交互:语音识别和合成
  • 视频分析:理解视频内容
  • 跨模态生成:从一种模态生成另一种模态

示例

复制代码
输入:一张猫的图片
输出:"这是一只可爱的橘猫,正在沙发上睡觉"

输入:"画一只在海边冲浪的猫"
输出:生成对应的图像

Agent 应用

定义:基于智能体技术的应用,具备自主决策和执行能力

典型应用

  • 智能客服:自动回答用户问题
  • 代码助手:辅助编写代码
  • 数据分析:自动完成数据处理和报告生成
  • 自动化办公:自动完成日常办公任务

Edge AI

定义:在边缘设备上运行的 AI 模型,无需依赖云端服务器

优势

  • 低延迟:本地推理,响应快
  • 隐私保护:数据不离开设备
  • 离线可用:无需网络连接
  • 成本低:减少云端资源消耗

应用场景

  • 智能手机:拍照识别、语音助手
  • 智能家居:智能音箱、安防摄像头
  • 自动驾驶:实时感知和决策
  • IoT 设备:智能传感器、工业控制

八、术语速查表

术语 全称 核心含义
AGI Artificial General Intelligence 通用人工智能
ASI Artificial Super Intelligence 超级人工智能
AIGC AI-Generated Content AI 生成内容
LLM Large Language Model 大语言模型
NLP Natural Language Processing 自然语言处理
CV Computer Vision 计算机视觉
RNN Recurrent Neural Network 循环神经网络
LSTM Long Short-Term Memory 长短期记忆网络
CNN Convolutional Neural Network 卷积神经网络
Transformer - 基于注意力的神经网络架构
BERT Bidirectional Encoder Representations 双向预训练模型
GPT Generative Pre-trained Transformer 生成式预训练模型
MoE Mixture of Experts 专家混合模型
RLHF Reinforcement Learning from Human Feedback 基于人类反馈的强化学习
RAG Retrieval-Augmented Generation 检索增强生成
Embedding - 文本向量化表示
Token - 文本最小处理单位
Prompt - 提示词/指令
Agent - 智能体
MCP Model Context Protocol AI 工具通信协议
LoRA Low-Rank Adaptation 低秩适配微调
PPO Proximal Policy Optimization 近端策略优化
API Application Programming Interface 应用程序接口
SDK Software Development Kit 软件开发工具包