第一部分:名词解释
1. 大语言模型 (LLM, Large Language Model)
- 它是什么:就是一个超级巨大的"文字接龙机器人"。你给它一句话开头,它能顺着把后面的话非常自然地编出来。
- 在AI中的作用 :它是大脑。没有它,后面的一切都转不起来。你问的问题、让它写的文章,都由它生成。
- "不能追问" :这是提醒,单纯的LLM像一台"一次性答题机"------你问一句它答一句,答完就失忆了,不记得刚才聊过什么。想让对话连贯,得靠后面要说的 Memory 来补。
2. Prompt(提示词) - 它是什么 :你对AI说的那句指令,就是提示词。
- 作用 :Prompt是方向盘。同样的大脑(LLM),你给不同的Prompt,它就往不同方向开。比如"用小学老师语气解释黑洞"和"写一段悲情小说",全靠Prompt来引导。
- "模型上下文协议":那是MCP的内容,我们马上讲。
3. MCP (Model Context Protocol,模型上下文协议) - 它是什么 :一个标准插头规格 。想象一下,你家插座要是千奇百怪,电器就没法通用。MCP就是让"AI大脑"和"各种外部工具(查邮件、读文档、搜网络)"能统一插拔的协议。
- 作用 :有了它,AI就能像人一样伸手去用外部资源,而且不用为每个工具单独写一套复杂接口,效率飙升。
4. Context(上下文) - 它是什么 :AI在回答当前问题时,能"看到"的全部聊天记录和背景信息。
- 作用 :它就是AI的短期记忆窗口。窗口越大,AI记得的聊天内容就越长。如果你觉得AI聊着聊着"忘事"了,往往是因为上下文窗口满了,旧信息被挤出去了。
5. Memory(记忆) - 它是什么 :AI的长期笔记本。
- 作用:Context是"刚才说了什么",Memory是"你是谁、你喜欢什么风格、上次我们聊到哪了"。下次你打开对话,AI还能记得你叫小王、爱吃辣,靠的就是Memory在后台存着摘要。
6. Function Calling(函数调用) - 它是什么:AI**主动说"我要用工具"**的那个动作。
- 作用:比如你问"现在北京天气怎么样?",LLM自己不知道天气,它就触发一次Function Calling,喊一声"调用天气查询工具,参数是北京"。这个机制就是AI的手和脚。
- "智能体关于工具调用约定的对方格式":就是指AI喊帮手时,得按帮手能听懂的固定暗号来喊,这就是Function Calling定义的格式。
7. Agent(智能体) - 它是什么 :给LLM装上目标、计划能力、工具箱之后的升级版AI。
- 作用 :单纯的LLM只会说话,Agent会做事 。你说"帮我订一张明天去上海的票",Agent自己会想:第一步查航班、第二步比价、第三步填信息、第四步支付。它自己能规划并调用Function Calling去一步步执行。这是LLM迈向自主行动的关键一步。
8. SubAgent(子智能体) - 它是什么 :大Agent手下专门干某一件细活的分包小弟。
- 作用:比如你有个"旅行规划Agent",它下面可能有个"机票SubAgent"、一个"酒店SubAgent"。大哥接活,分给小弟干,最后汇总。这样系统更稳定、更专精。
9. SKILL(技能) - 它是什么 :给Agent装的预制能力包。
- 作用 :就像手机App,你给AI装个"Excel处理Skill",它就会读表格了;装个"PDF摘要Skill",就会看论文了。Skill是让AI快速学会新把戏的插件系统。
10. RAG (Retrieval Augmented Generation,检索增强生成) - 它是什么 :让AI先翻书,再答题的机制。
- 作用 :你问"公司年假政策是什么?",AI先去你公司内部知识库里搜出相关文档段落,然后对着那段文字来回答。既防编造(幻觉),又能用最新私密数据。这是企业落地AI最重要的技术之一。
11. LangChain(编程框架) - 它是什么 :一套专门用来搭建AI应用的乐高积木。
- 作用:你想把LLM、Memory、RAG、Agent这些零件组装成一个"智能客服",用手搓代码太累。LangChain把这些零件都做成标准模块,程序员像搭积木一样写几行Python就能串起来。
12. Workflow(工作流) - 它是什么 :把AI的任务拆成一步一步的固定流程,像工厂流水线。
- 作用 :Agent是"自己想办法",Workflow是"按我说的1-2-3步走"。比如"收到邮件→提取附件→调用AI总结→存入表格"。低代码平台就是指像画流程图一样拖拽模块来搭建这种Workflow,不用全写代码。
13. Search(搜索) - 它是什么 :让AI实时上网查资料的能力。
- 作用 :LLM知识有截止日期,Search是它的外接新鲜信息源。问"今天金价多少",AI必须用Search去捞实时数据。
第二部分:AI链路里还有别的东西吗?------当然有,从人到硅的完整长链
第一部分的主要是"应用与框架层"。如果把AI看作一栋摩天大楼,第一部分展示的是顶楼豪华装修和家具。完整的链路从人到最底层硬件,还包括下面这些关键角色:
顶层:用户界面 (UI)
- 聊天框 / 语音输入 / API接口:你说话的地方,这是人与AI的第一个接触点。
上层(你的图在此):智能编排与工具层 - Agent / Workflow / Skill / MCP :负责思考和规划的大脑皮层与神经指挥系统。
中层:模型服务与加速层 - 模型库 (Model Hub,如Hugging Face):AI模型的"应用商店",下载各种开源大脑的地方。
- 推理引擎 (Inference Engine,如 vLLM, TensorRT-LLM) :它负责让LLM这个大脑反应极快、同时接待成千上万人。没有它,AI回答一个字要等10秒,且电费爆炸。
- 量化与压缩 (Quantization) :把AI模型减肥,让它能塞进手机或普通电脑里运行。
底层:基础设施与物理层 - 云计算与调度 (Kubernetes/Slurm):管着几万台服务器,谁用哪个GPU听它指挥。
- GPU / TPU / NPU 芯片 :AI算力的肌肉。LLM每一个字都是这些芯片做海量矩阵乘法算出来的。没有它们,大模型就是一团只会发呆的代码。
- 数据中心与电力 :最终极的底层,是电和冷却水。
第三部分:一条完整的链路逻辑故事(从你提问到AI回答)
为了让小白彻底听懂,我用一次"问天气"把上面所有东西串起来:
- 你在手机(UI)打字:"明天北京冷吗?穿啥?"
- 提示词 (Prompt) 被送入 AI 大脑 (LLM)。
- 上下文 (Context) 模块往窗口里塞:他人在杭州,计划去北京。
- 记忆 (Memory) 模块补充:这人怕冷,喜欢穿羽绒服。
- LLM 读了一遍,发现自己不知道明天天气 ,于是它通过 Function Calling 大喊:"Skill:天气查询,目标:北京明天"。
- 这个调用顺着 MCP 协议 这根标准水管,流到了 Search 工具,从网上抓回数据:"晴,-5°C到3°C"。
- 数据回来了,但直接念数字不友好。于是 RAG 流程 触发:系统去内部知识库搜出《北京冬季穿衣指南》片段。
- Agent 把原始天气+穿衣指南 一并喂给 LLM。
- LLM 最后组织语言:"北京明天晴天,-5度挺冷的,您怕冷,建议穿厚羽绒服戴帽子。"
- 整个过程是在 LangChain 编排 下,由 vLLM 加速引擎 驱动,跑在 NVIDIA GPU 上完成的。
- Workflow 默默记录了这次对话的日志,以备后续审计。