Ai名词解释 - 技术栈

第一部分：名词解释

1. 大语言模型 (LLM, Large Language Model)

它是什么：就是一个超级巨大的"文字接龙机器人"。你给它一句话开头，它能顺着把后面的话非常自然地编出来。
在AI中的作用 ：它是大脑。没有它，后面的一切都转不起来。你问的问题、让它写的文章，都由它生成。
"不能追问" ：这是提醒，单纯的LLM像一台"一次性答题机"------你问一句它答一句，答完就失忆了，不记得刚才聊过什么。想让对话连贯，得靠后面要说的 Memory 来补。
2. Prompt（提示词）
它是什么 ：你对AI说的那句指令，就是提示词。
作用：Prompt是方向盘。同样的大脑（LLM），你给不同的Prompt，它就往不同方向开。比如"用小学老师语气解释黑洞"和"写一段悲情小说"，全靠Prompt来引导。
"模型上下文协议"：那是MCP的内容，我们马上讲。
3. MCP (Model Context Protocol，模型上下文协议)
它是什么 ：一个标准插头规格 。想象一下，你家插座要是千奇百怪，电器就没法通用。MCP就是让"AI大脑"和"各种外部工具（查邮件、读文档、搜网络）"能统一插拔的协议。
作用：有了它，AI就能像人一样伸手去用外部资源，而且不用为每个工具单独写一套复杂接口，效率飙升。
4. Context（上下文）
它是什么 ：AI在回答当前问题时，能"看到"的全部聊天记录和背景信息。
作用：它就是AI的短期记忆窗口。窗口越大，AI记得的聊天内容就越长。如果你觉得AI聊着聊着"忘事"了，往往是因为上下文窗口满了，旧信息被挤出去了。
5. Memory（记忆）
它是什么 ：AI的长期笔记本。
作用：Context是"刚才说了什么"，Memory是"你是谁、你喜欢什么风格、上次我们聊到哪了"。下次你打开对话，AI还能记得你叫小王、爱吃辣，靠的就是Memory在后台存着摘要。
6. Function Calling（函数调用）
它是什么：AI**主动说"我要用工具"**的那个动作。
作用：比如你问"现在北京天气怎么样？"，LLM自己不知道天气，它就触发一次Function Calling，喊一声"调用天气查询工具，参数是北京"。这个机制就是AI的手和脚。
"智能体关于工具调用约定的对方格式"：就是指AI喊帮手时，得按帮手能听懂的固定暗号来喊，这就是Function Calling定义的格式。
7. Agent（智能体）
它是什么 ：给LLM装上目标、计划能力、工具箱之后的升级版AI。
作用：单纯的LLM只会说话，Agent会做事 。你说"帮我订一张明天去上海的票"，Agent自己会想：第一步查航班、第二步比价、第三步填信息、第四步支付。它自己能规划并调用Function Calling去一步步执行。这是LLM迈向自主行动的关键一步。
8. SubAgent（子智能体）
它是什么 ：大Agent手下专门干某一件细活的分包小弟。
作用：比如你有个"旅行规划Agent"，它下面可能有个"机票SubAgent"、一个"酒店SubAgent"。大哥接活，分给小弟干，最后汇总。这样系统更稳定、更专精。
9. SKILL（技能）
它是什么 ：给Agent装的预制能力包。
作用：就像手机App，你给AI装个"Excel处理Skill"，它就会读表格了；装个"PDF摘要Skill"，就会看论文了。Skill是让AI快速学会新把戏的插件系统。
10. RAG (Retrieval Augmented Generation，检索增强生成)
它是什么 ：让AI先翻书，再答题的机制。
作用：你问"公司年假政策是什么？"，AI先去你公司内部知识库里搜出相关文档段落，然后对着那段文字来回答。既防编造（幻觉），又能用最新私密数据。这是企业落地AI最重要的技术之一。
11. LangChain（编程框架）
它是什么 ：一套专门用来搭建AI应用的乐高积木。
作用：你想把LLM、Memory、RAG、Agent这些零件组装成一个"智能客服"，用手搓代码太累。LangChain把这些零件都做成标准模块，程序员像搭积木一样写几行Python就能串起来。
12. Workflow（工作流）
它是什么 ：把AI的任务拆成一步一步的固定流程，像工厂流水线。
作用：Agent是"自己想办法"，Workflow是"按我说的1-2-3步走"。比如"收到邮件→提取附件→调用AI总结→存入表格"。低代码平台就是指像画流程图一样拖拽模块来搭建这种Workflow，不用全写代码。
13. Search（搜索）
它是什么 ：让AI实时上网查资料的能力。
作用：LLM知识有截止日期，Search是它的外接新鲜信息源。问"今天金价多少"，AI必须用Search去捞实时数据。

第二部分：AI链路里还有别的东西吗？------当然有，从人到硅的完整长链

第一部分的主要是"应用与框架层"。如果把AI看作一栋摩天大楼，第一部分展示的是顶楼豪华装修和家具。完整的链路从人到最底层硬件，还包括下面这些关键角色：
顶层：用户界面 (UI)

聊天框 / 语音输入 / API接口：你说话的地方，这是人与AI的第一个接触点。
上层（你的图在此）：智能编排与工具层
Agent / Workflow / Skill / MCP ：负责思考和规划的大脑皮层与神经指挥系统。
中层：模型服务与加速层
模型库 (Model Hub，如Hugging Face)：AI模型的"应用商店"，下载各种开源大脑的地方。
推理引擎 (Inference Engine，如 vLLM, TensorRT-LLM) ：它负责让LLM这个大脑反应极快、同时接待成千上万人。没有它，AI回答一个字要等10秒，且电费爆炸。
量化与压缩 (Quantization) ：把AI模型减肥，让它能塞进手机或普通电脑里运行。
底层：基础设施与物理层
云计算与调度 (Kubernetes/Slurm)：管着几万台服务器，谁用哪个GPU听它指挥。
GPU / TPU / NPU 芯片 ：AI算力的肌肉。LLM每一个字都是这些芯片做海量矩阵乘法算出来的。没有它们，大模型就是一团只会发呆的代码。
数据中心与电力 ：最终极的底层，是电和冷却水。

第三部分：一条完整的链路逻辑故事（从你提问到AI回答）

为了让小白彻底听懂，我用一次"问天气"把上面所有东西串起来：

你在手机（UI）打字："明天北京冷吗？穿啥？"
提示词 (Prompt) 被送入 AI 大脑 (LLM)。
上下文 (Context) 模块往窗口里塞：他人在杭州，计划去北京。
记忆 (Memory) 模块补充：这人怕冷，喜欢穿羽绒服。
LLM 读了一遍，发现自己不知道明天天气 ，于是它通过 Function Calling 大喊："Skill：天气查询，目标：北京明天"。
这个调用顺着 MCP 协议 这根标准水管，流到了 Search 工具，从网上抓回数据："晴，-5°C到3°C"。
数据回来了，但直接念数字不友好。于是 RAG 流程 触发：系统去内部知识库搜出《北京冬季穿衣指南》片段。
Agent 把原始天气+穿衣指南 一并喂给 LLM。
LLM 最后组织语言："北京明天晴天，-5度挺冷的，您怕冷，建议穿厚羽绒服戴帽子。"
整个过程是在 LangChain 编排 下，由 vLLM 加速引擎 驱动，跑在 NVIDIA GPU 上完成的。
Workflow 默默记录了这次对话的日志，以备后续审计。