大模型技术路线及场景选型指南

一、基础认知与选型

核心目标:搞懂大模型是什么、能做什么、怎么选

技术重点

1. 大模型基础概念:

  • 通用大模型:GPT、Qwen、Llama、DeepSeek等

  • 模型参数规模:7B/14B/32B/70B...、上下文窗口、推理速度

  • 部署形态:云服务API、本地部署、私有化部署

2. 选型判断逻辑:

选型维度 云服务API(如通义千问、Qwen API) 开源模型本地部署 商业私有化部署
适用场景 快速验证、轻量业务、无数据敏感 技术探索、定制化需求 高安全、高合规业务(如汽车、金融)
开发成本 极低(直接调用) 中(需部署、调优) 高(需采购、运维)
数据安全 数据需上传云端 数据本地留存 数据完全可控
迭代速度 快(厂商自动更新) 慢(需手动升级) 中(厂商协助更新)

二、Prompt工程

核心目标:让通用大模型输出符合业务需求的结果

技术重点

1. Prompt设计技巧:

  • 角色定义:你是一名汽车信息安全专家,擅长TARA分析

  • 任务拆解:请先识别整车功能中的网络安全相关项,再生成威胁清单

  • 格式约束:输出格式为JSON,包含威胁描述、影响等级、防护措施

  • 示例引导:Few-shot Learning(给几个正确案例,让模型模仿)

2. 高级技巧:

  • 思维链(Chain of Thought):请一步步思考,先分析功能,再识别威胁

  • 自我校正:请检查你的输出,是否符合ISO/SAE 21434标准

  • 多轮对话:通过上下文引导模型逐步完善结果

什么时候用?

  • 所有场景的基础:先通过Prompt优化验证效果,再考虑更复杂技术

  • 轻量业务:不需要补充知识、不需要对接系统的场景(如简单文本生成、问答)

  • 快速验证:用Prompt就能满足需求的场景,绝对不要提前上RAG/微调/AI Agent


三、RAG(检索增强生成)

核心目标:让大模型懂业务知识,不胡说、不编造

技术重点

1. 核心流程:

  • 数据准备:业务文档(TARA报告、ISO标准、供应商资质等)→ 清洗 → 分块

  • 向量 embedding:将文本转成向量(用BGE、m3e等开源Embedding模型)

  • 向量存储:存入向量数据库(Milvus企业级、FAISS、Chroma)

  • 检索生成:用户提问 → 检索相似知识 → 喂给大模型 → 生成回答

2. 关键优化点:

  • 分块策略:按段落/语义分块,避免信息碎片化

  • 检索召回:优化向量相似度计算,提升召回准确率

  • 重排序:用小模型对检索结果重排序,提升相关性

  • 上下文管理:控制检索结果长度,避免超出模型上下文窗口

什么时候用?

  • 需要专属知识:大模型本身不知道的业务知识(如整车架构、内部安全标准)

  • 知识需要更新:法规、标准、业务流程变化快(如ISO/SAE 21434更新)

  • 避免幻觉:需要大模型基于真实数据回答,不能编造(如TARA威胁识别、数据安全合规)

  • 替代微调:不想/不能训练模型时,RAG是最优解

  • 为AI Agent提供知识支撑:作为智能体的核心知识模块,解决其知识陈旧、幻觉问题


四、Function Calling / 工具调用

核心目标:让大模型对接系统、执行动作,从说话到做事

技术重点

1. 核心能力:

  • 工具定义:将业务系统API封装成工具(如「推送审核结果」「触发VSOC告警」)

  • 函数选择:大模型根据用户需求,自动选择需要调用的工具

  • 参数填充:自动提取参数(如供应商ID、威胁等级),调用工具

  • 结果整合:将工具返回结果整理成自然语言回答

2. 框架选型:

  • Python:LangChain、LlamaIndex

  • Java:SpringAI、SpringAI Alibaba

  • 云服务:通义千问Function Calling、GPT Functions

什么时候用?

  • 需要对接现有系统:大模型需要读写业务数据(如供应商管理平台、VSOC系统)

  • 流程自动化:端到端完成业务流程(如资质核验→结果推送→整改跟踪)

  • 实时数据获取:需要查询实时数据(如车辆状态、告警数据)

  • 替代人工操作:减少重复人工操作,提升效率(如自动生成报告并推送)

  • 作为AI Agent的核心执行模块:支撑智能体完成跨系统操作、落地实际业务动作


五、AI Agent(智能体)

核心目标:融合大模型+RAG+Function Calling能力,实现自主规划、闭环执行复杂业务

技术定义

AI Agent是具备自主感知、任务规划、工具调用、记忆迭代、反思优化的高阶AI系统,以大模型为核心大脑,融合RAG、Function Calling等技术,可完成多步骤、跨环节、端到端的复杂业务流程,区别于单一技术的"单点能力",实现从"被动响应"到"主动执行"的升级。

技术重点

1. 核心架构模块:

  • 感知模块:接收用户自然语言需求,解析核心目标与约束条件

  • 规划模块:将复杂需求拆解为可执行的子任务,制定执行路径(如"数据分析→报告生成→系统推送→结果反馈")

  • 记忆模块:包含短期记忆(对话上下文、任务执行过程)和长期记忆(历史案例、业务经验、用户偏好),基于向量数据库实现存储与检索

  • 工具调用模块:集成Function Calling能力,根据子任务自动选择并调用对应工具/系统API

  • 反思模块:复盘任务执行结果,校验是否达成目标,若出现错误/偏差则自动调整执行路径

  • 执行与反馈模块:落地子任务执行,整合所有结果并向用户反馈,同时将经验沉淀至长期记忆

2. 框架选型:

  • 通用轻量框架:LangChain Agent、LlamaIndex Agent(基于Python,快速搭建原型)

  • 企业级工程化框架:SpringAI、SpringAI Alibaba(基于Java,适配企业级系统集成、高可用需求)

  • 专用智能体平台:AutoGPT、MetaGPT(适用于复杂多任务协同场景)

什么时候用?

  • 业务流程复杂:需跨3个及以上环节/系统,人工操作步骤多、重复度高(如全流程资质审核、端到端威胁处置)

  • 需自主决策与闭环:需求模糊/多维度,需要AI自主拆解任务、规划路径并完成全流程执行,无需人工逐步干预

  • 多技术融合需求:单一RAG/Function Calling无法满足,需要同时结合知识检索、系统调用、历史经验复用等能力

  • 追求极致效率与降本:人工处理耗时占比高、体验差,需要AI实现7×24小时自主化业务处理

  • 知识与经验沉淀需求:需要将业务执行经验持续沉淀,实现能力迭代与复用

核心技术依赖

AI Agent是技术融合体,无法独立落地,其核心能力依赖前置技术:

  1. 基础大脑:大模型(Prompt工程优化后)

  2. 知识支撑:RAG(解决专属知识与幻觉问题)

  3. 执行能力:Function Calling(解决系统对接与实际动作落地)

  4. 数据存储:向量数据库(支撑记忆模块与知识检索)


六、模型微调(让大模型更懂业务)

核心目标:在通用大模型基础上,定制化适配业务场景,提升效果

技术重点

1. 微调类型:

  • 全参数微调:更新模型所有参数,效果最好,但成本极高(需大量数据+算力)

  • 参数高效微调(PEFT):只更新少量参数(如LoRA、QLoRA),成本低、效果好,工业界主流

2. 核心流程:

  • 数据准备:业务场景标注数据(如TARA威胁识别样本、敏感数据样本)→ 格式化成指令数据集

  • 框架选择:PEFT(LoRA)+ Transformers + Accelerate

  • 训练配置:低精度训练(FP16/FP8/4-bit),节省算力

  • 效果验证:对比微调前后效果,验证业务指标(如识别准确率、一致性)

3. 关键注意事项:

  • 数据质量 > 数据数量:高质量标注数据是关键

  • 过拟合风险:避免训练数据过少,导致模型泛化能力差

  • 算力需求:至少需要A10/A100级GPU,或使用云算力服务

什么时候用?

  • RAG/Function Calling/AI Agent基础版无法满足:Prompt+RAG+Function Calling优化到极限,AI Agent的决策/规划能力仍不达标

  • 业务场景特殊:通用大模型完全不理解行业/企业专属逻辑,导致AI Agent规划错误、工具调用失准

  • 追求AI Agent极致效果:需要智能体的任务规划、反思优化能力更贴合业务,输出高度一致、专业

  • 有足够数据:至少需要几百~几千条高质量业务标注数据(含任务拆解、决策规划类样本)

  • 成本可承受:能承担算力成本、数据标注成本,且有专业AI算法团队支撑


七、大模型底层与自研

核心目标:理解大模型底层原理,自研/深度定制模型

技术重点

1. 底层原理:

  • Transformer架构:注意力机制、编码器/解码器

  • 预训练技术:自监督学习、因果语言模型(CLM)

  • 推理优化:KV缓存、量化(INT8/INT4)、蒸馏

2. 自研/深度定制:

  • 预训练:基于开源基座(如Llama、Qwen),用自有数据继续预训练

  • 架构创新:针对特定场景优化模型结构(如时序大模型、多模态大模型、智能体专用大模型)

  • 推理部署:模型压缩、分布式推理、服务化封装

3. 工具生态:

  • 训练框架:PyTorch、TensorFlow、MegEngine

  • 部署框架:vLLM、TensorRT-LLM、ONNX Runtime

什么时候用?

  • 企业级战略投入:需要构建核心AI技术壁垒,打造专属大模型与智能体体系

  • 场景极度特殊:现有开源/商业模型完全无法满足,导致AI Agent核心能力受限(如车联网专用智能体、工业制造决策智能体)

  • 算力/人才充足:有强大的AI算法、工程化团队,且具备规模化算力集群

  • 大规模AI Agent落地需求:企业内需要部署多场景、多类型智能体,需要自研模型实现统一适配与高效支撑


八、选型决策

技术优先级

Prompt提示词工程化RAG检索增强Function Calling工具调用AI Agent智能体微调模型全参数训练模型大模型底层与自研

通用选型思路

  1. 准备测试数据,用对话应用基于Prompt工程验证核心需求可行性;

  2. 判定是否需要补充专属知识:是→接入RAG,否→进入下一步;

  3. 判定是否需要对接其它业务系统:是→开发Function Calling工具调用能力,否→进入下一步;

  4. 判定业务是否为复杂流程、需要自主闭环执行:是→搭建AI Agent智能体(融合上述所有能力),否→直接交付;

  5. 判定现有技术组合(Prompt+RAG+Function Calling/AI Agent)效果是否达标:否→基于业务数据做模型微调,是→直接交付;

  6. 现有模型完全无法适配时,考虑大模型底层自研/深度定制。

关于我:后续会持续分享 Agent 开发的实战经验,欢迎关注。

相关推荐
毒爪的小新2 小时前
踩坑实录 | RAG知识库完整搭建-Milvus2.4+BGE大中文AI模型嵌入
linux·人工智能·ai·milvus·rag
ifenxi爱分析3 小时前
爱分析:中国企业智能体市场规模分析,数字劳动力交易是时代拐点
人工智能·大模型·agent·智能体
带刺的坐椅5 小时前
用 ChatModel 构建 LLM 驱动的 Java 应用
java·ai·llm·solon·rag·chatmodel
leonshi1 天前
使用embedchain快速建立rag知识库,本地大模型
ai·rag·ollama
Java研究者3 天前
AI智能体研发 | 什么是OpenAI API协议
人工智能·大模型·openai·api·agent·智能体
小七-七牛开发者3 天前
Coding Agent 规则管理:CLAUDE.md、Skills、Hooks、Subagents 到底怎么选?
ai·大模型·agent·claude·token·loop·mcp·claudecode·ai coding
小七-七牛开发者4 天前
论文解读:DeepSeek DSpark 在真实高并发推理服务中,如何保证 Token 生成又好又快?
ai·大模型·编程·ai coding
fengliaoai6 天前
DeepSeek搞了个DSpark,AI直接进入“秒回时代”,你还在傻等?
大模型