AI大模型进阶系列(01)AI大模型的主流技术 | AI对普通人的本质影响是什么？

又又获奖啦。短短6个月，50%以上作品得到首页推荐，喜出望外接连获得平台授予最佳作品奖、影响力作者、创作者之星荣誉。在写作分享的这条路上，特别感谢开发者社区的不断认可和激励，给了我不断的成长进步空间。开心之余、荣誉之后，无形之中对自己也有了更高的要求和期望，持续坚持去做难而正确的事！2025年属于AI agent元年，除了分享主流技术框架，将更多分享AI方面的实践。

一、前言背景

二、AI大模型核心技术

2.1 大模型推理核心过程

2.2 LLM类型

三、prompt工程

3.1 参数配置

3.2 最佳实践

四、大模型应用高阶技术

4.1 RAG技术

4.1.1 RAG的核心原理

4.1.2 RAG的类型

4.1.2 RAG的应用场景和优势

4.2 模型微调(fine-Tuning)

4.2.1 微调的方法

4.2.2 模型微调和RAG对比

五、AI对我们的本质影响是什么？

一、前言背景

2010年至今，我们见证了移动互联网时代、大数据时代、短视频时代，以及炙手可热的通用AI时代。科技技术迭代之快，让15年时间短得仿若一梦。而强大的AI智能，到底会给我们的现实世界产生哪些影响，尤其是全社会对超级AI能力的无限期许，让AI技术的每一个进展都会成为时下社会关注和讨论的热点。

从2023年底ChatGpt一炮走红，至今不到2年，关于AI技术大模型，涌现的各种技术概念到底是什么？整体AI技术的突破和普及，对普通人又有哪些本质影响？

今天围绕这两个问题，我们进行详细探讨。一来梳理了解掌握AI大模型技术核心技术能力，二来作为一个普通人，如何思考应对和跟上AI时代的进步。

二、AI大模型核心技术

在这信息科技时代，作为一名IT从业人员、尤其是编程研发人员，可以直接探索应用每一项新技术，个人觉得深感荣幸。

最近两年与LLM大模型相关的技术概念，层出不穷。比如AI智能体agent、prompt提示工程、模型推理、RAG、模型微调、模型评估、MCP等关键技术，如果不是亲自实践探索，技术人员同样会感觉陌生。接下来一一浅谈，后面再具体结合实践案例详解。

2.1 大模型推理核心过程

首先，AI大模型不同类型有不同叫法，最早是通用AI大模型、垂直领域大模型。我们普通人接触的元宝、deepseek、kimi等都是通用大模型。用起来也非常简单，我们只要提问题，大模型就能给出专家级的答案。

但是大模型背后的推理过程是怎样的呢？借鉴网上一个非常详细的推理流程图：

大模型的推理过程，实际是通过训练好的模型利用输入的新数据(我们的提问)进行运算得到正确结果的过程，大模型本质依然是一个概率模型。它的推理过程和人的思考过程很相似，尤其是deepseek的出现，让大模型的的核心推理过程可视化，也直接提高了大模型推理结果的可解释性。LLM的推理过程大致如下：

分词器将输入的提示内容进行拆分，变成一个个token。关于token的本质，每个token不一定是一个词，可能是单词的一分部，或者一个完整的单词，甚至是一个标点符号。而中文里，一般一个汉字就是一个token。当然大模型分词，也可能一个词，一个成语是一个token。不同大模型的token 的拆分算法不同，它对我们的影响主要是输入限制和费用结算。
将token转换为embedding向量。全部token向量形成embedding矩阵。
embedding矩阵将会作为神经网络transformer的输入。transformer是大模型的核心，他由多层layer组成。transformer的每层layer都采用embedding矩阵+模型参数进行复杂的运算。而这里的self-attention机制，会让每一层layer的输出作为下一层的输入。
最后神经网络将transformer的输出转成logits。这些logits就是后面output输出的可能标记。也就是每个推理下一个可能的标记，都有对应一个logit。比如让大模型推理这句话的：中国的首都是__?,在logits里，可能会有北京、长安、北平等。
采用多种采样技术从logits列表里选择下一个标记得到输出token。

我们给大模型输入一段内容，大模型如何推理得到结果？它的核心在于首先将输入的token映射为更高维度的向量，这个和深度学习的基本思想是一致的，通过高维度向量来表达数据内容。

2.2 LLM类型

大模型短短两年发展实在太快，日新月异，新概念新说法新应用层出不穷。而LLM类型，最早是分base模型、chat模型。

base模型是最基础的大模型，它仅仅是在海量文本训练后，提供对文本后续内容预测的模型。base模型给出的响应，仅仅是后续文本的预测，未必真的会是对话命令的响应。比如你问：北京今天的天气怎么样？base模型给出的后续文本预测是：【北京今天的天气怎么样？今天是否适合出行？外面交通情况如何？让我们来分析看看....xxx】

chat模型，是在base模型基础上通过对话记录、指令做强化学习和微调得到具备落地应用能力的大模型。它可以接受用户输入的指令和问答，给出的答案也是遵循之前训练、符合人类预期的AI助理级别的响应内容。ChatGpt也是从这里开始一夜走红。让AI真的像一个AI专家助理出现在大众视野。

此外，根据大模型的能力用途进行扩展分类，市场主流有通用大模型，各大应用店都可以下载用于对话聊天、资讯内容搜索、资料分析总结，这些免费开源的通用大模型，必须满足相关规定才可提供给大众应用。而垂直领域行业专用的商用大模型，大都在各个有能力公司内部自研和自用，这类模型大多有特定商业价值。还有的支持文本分析、多媒体视音频制作整理分析等多模态模型，以及最近发展越来越好的agent智能体，可以直接授权接管电脑手机系统，一句话让agent给你干活的AI助理。

三、prompt工程

对于普通人来说，以及去年大多没有很强的AI研发能力企业，主要是通过prompt 工程在应用大模型的能力。

而prompt的应用也有很多技巧，尤其是研发人员在对接大模型开发过程需要了解和应用这些参数。这些参数将对大模型创作力和确定性产生明显影响。

3.1 参数配置

首先是temperature。这个被称为温度的参数值范围是0-1。当temperature越接近于0，则要求得到高确定性结果。对于创作、想象力推理，比如写诗、写歌，就适合把temperature设置为1，让大模型拥有最高的想象力去推理编写。而对于数据计算分析、股票行情预测、客服问答这种有标准规范精准度要求严格的场景，适合设置为0，让大模型给出确切的结果。

temperature对应影响就是上文2.1推理过程说的logits，每个标记有一个概率值。temperature越低，大模型能选择的top_n就越少，就倾向于选择那些概率值最大的logit。

其次是top_p：top_p和temperature统称为核采样技术（nucleus sampling），专门用来控制模型返回结果的确定性。如果需要准确事实答案，top_n和temperature都应该尽可能调低，甚至为0。如果期望得到富有想象力多样化的结果，就把它调大，甚至为1。Temperature 和 Top P ，一般设置其中一个参数就行。

然后，频率惩罚frequency penalty参数，是对结果重复token的惩罚。这个惩罚值和token在响应和提示出现次数成比例。frequency penalty越高，大模型在响应时出现重复token的可能性就越低。

以及，存在惩罚Presence Penalty参数，这个参数和frequency penalty作用类似，只是这个惩罚对所有重复token是相同的。也就是重复10次和重复100次的token受到的惩罚相同。如果希望模型响应多样化有创作力的结果，就增加这两个参数值，对大模型实施强惩罚。如果希望大模型生成内容更专注，设置较低的参数值。Presence Penalty和frequency penalty这两个参数一般也是设置一个即可。

最后，最大长度max length,用来控制大模型生成token数量。设置这个值有利于防止大模型生产冗长和不想干的内容，以及控制成本。

3.2 最佳实践

prompt是一个完整工程，涉及的内容会很多，不过随着AI技术的进步，prompt的应用要求很可能很快会大幅降低。

首先，prompt应该包含LLM的风格角色，有助于大模型在多轮对话保持稳定。比如在提问之前，设定好大模型的角色：你是一个xx的投顾研究员，擅长xx。

其次，限定任务职责风格：可以回答xxx相关问题，并严格遵守xx，在对话过程保持专业、包容尊重的语气风格。

最后，具体的用户提问内容+对响应格式明确要求，比如要求以json格式，xx的key是xx，并提供一个demo让大模型参考。

这是一个非常常规的一个实践，对于普通用户日常应用AI搜索，甚至只需要在提问里增加大模型角色，以及明确自己需求，大模型就可以给出满意的响应。

在技术侧应用，我们研发很多时候需要考虑合规问题、兜底问题、结果准确性、用户满意度等问题。比如在prompt里，增加一段说明来指导大模型响应：

1、如果答案不确定，可以回答：xxxx，并建议xxx，最后贴上：本内容由AI生成，xx需谨慎。

2、请严格参考xxx里的内容进行响应，不得违反xx。

3、如果结果不满意，可以通过xxx去获取最新知识信息，并重新按要求给出响应。

总的来说，prompt需要明确告诉大模型，你希望它扮演什么角色，并细致说明你的需求，避免模糊笼统的提问，尤其可以通过优质例子和准确的上下文信息，让模型理解你的意图背景。此外需要给模型容错空间还有激励模型反思。

目前RAG技术、和大模型普通支持联网搜索能力的出现，让大模型获取最新知识和专业知识库已经不再是难题，这也让prompt高阶应用要求正在降低。

四、大模型应用高阶技术

AI大模型目前企业内部研发实践主要是通过RAG、模型微调、模型蒸馏、还有function call等方式。不过RAG、模型微调的方式较为普遍，function call实际和RAG有异曲同工之妙。随着MCP的实践普及，function call的方式应用可能很快又被减少。

4.1 RAG技术

RAG（retrieval-augmented generation ）检索增强生成，是AI大模型应用的创新方法。通过结合信息检索和文本生成能力，有效提升大模型在知识密集型任务的准确性、可靠性、可解释性，以及大幅减少大模型的幻觉。在deepseek出来之前，很多模型不具备联网搜索能力，目前市面上的【联网搜索】实际也是一种RAG，也称为知识库外挂。

但是在企业应用中，RAG往往是企业内部不便公开的业务数据、知识库。RAG技术价值，在垂直领域大模型里非常明显。比如企业内部的用户数据、沉淀多年的数据仓库、搜索平台数据，研报、法律文本、合同等。RAG让数据孤岛不再孤单，让没有能力自研大模型，没有能力购买GPU的企业，也可以快速应用处于孤岛的数据价值。

4.1.1 RAG的核心原理

RAG核心技术主要包括检索和生成两个阶段。

检索Retrieval：当用户输入问题或者请求后，RAG先通过外部知识库，比如数据库、网页、文档检索与问题相关的数据片段和内容。对应【联网搜索】，就是先从互联网上搜索相关资讯、文章、内容。

生成generation：将检索到的相关内容+具体问题一并输入到大模型中，大模型会基于检索内容生成有明确依据的响应，可以大幅提升大模型可解释性、并减少大模型凭空编造的风险。

RAG技术实现流程大概分3步。首先，构建知识库，比如用于搜索的es、向量数据库FAISS。其次在检索阶段，对用户问题进行编码转为向量，然后通过相似度匹配从知识库里提取top-k的相关数据内容。最后内容生成阶段，将用户问题+检索到的内容拼接，输入给大模型，得到响应。

RAG的prompt提示词，通常设计为：请基于以下依据、证据、原始xx业务数据：{检索阶段得到的数据内容}，回答问题：{具体的问题}。并在回答里按xxx要求。。。

4.1.2 RAG的类型

实用的RAG技术，随着不断发展，按照不同特点能力，也衍生了几种类型。

naive RAG：使用简单的全文检索或者向量检索，得到与输入内容相关的数据。这是最早期RAG应用实践，naive RAG由于存在缺少语义理解能力，对输出效果提升还有较大空间。
advanced RAG ：在naive rag基础上进行了优化，对检索前、中、后进行了加强。其中包括知识库数据质量优化、索引优化、query内容重写、以及embedding 微调，生成对上下文理解更准确的语义向量，检索后，对检索文档的相关性进行reranking，让最终提供给大模型的信息更加集中。
agentic RAG：这个是目前最强大的RAG技术，可以动态决策和调用LLM-based agent，实时解决复杂问题。通过动态决策整合多种api或者系统工具能力，提高检索准确性。

4.1.3 RAG的应用场景和优势

RAG适用于对数据时效性高、依赖领域专业知识场景，比如医疗、金融、法律等这种业务场景，以及其他需要实时动态整合应用各种数据、分析有来源依据、准确性要求高的场景。

由于RAG拥有不需要重新训练大模型、计算成本低的优势，所有大模型应用都希望可以实现自己的RAG，让大模型充分发挥它的推理能力，以及提高大模型的可解释性、增强大模型信任度、减少大模型幻觉，这些问题在RAG出来之前都是非常难解决的问题。

不过RAG也有一个缺点，由于新增了检索阶段，在响应上会增加延时，对用户流畅体验上有一些影响。另外维护知识库、数据清洗的成本，相比得到高质量的响应，就不足为道。

4.2 模型微调(fine-Tuning)

在deepseek开源之前，很多企业都在通过微调方式去优化自研的大模型。模型微调也是大模型实践的核心技术，主要是通过预训练好的通用大模型，比如GPT、LLaMA、Bert,通过领域特定的数据集进行针对性的训练，让大模型具备特定任务场景的能力。

模型微调，目标是将通用大模型变成拥有某项专业能力的大模型。往往模型微调后，后续数据更新，模型能力迭代，为了降低重新训练微调成本，需要结合RAG进行使用才能得到较好的效果。

4.2.1 微调的方法

全参数微调（full fine-tuning），对模型全部参数进行调整，通常将学习率设为预训练的0.1~0.01,对通用层设置较低的学习率，而顶层任务相关层设置较高的学习率，避免破坏原有的知识。适合数据量充足、计算资源丰富，但容易过拟合。
指令微调（supervised fine-tuning），通过少量标注数据集，将预训练模型的知识涌现出来。指令微调一般是不能给大模型灌注新的知识，只是将已有的某种知识能力以某类任务的形式去展现。
参数高效微调（parameter efficient FT），针对资源有效，微调少量参数，保留预训练模型的主体知识。

此外还有小样本微调（few shot fine-tuning）、持续微调(continual fine-tunning)、领域自适应微调(domain Adaptation)方法。

4.2.2 模型微调和RAG对比

对于核心的大模型优化有关键作用的模型微调和RAG技术，参考对比列举他们的部分特点。

五、AI对我们的本质影响是什么？

在今年春节前，也就是deepseek出现之前，国内的AI技术发展和应用，存在计算资源限制，导致大模型幻觉、推理效率、模型训练迭代速度慢等问题。间接导致社会对AI普及大众的速度有较大的疑虑，观望者居多。场内只有有资金、技术实力的企业在埋头攻关。

也可以说在deepseek出现之前，大家对AI的应用非常有限，有一种手上拿着万斤金箍棒，但是仅限于把它当做用来挑水的工具，大材小用。

而deepseek的出现，不仅掀起了全世界AI追赶应用的浪潮，也极大提高大家对AI技术可以改变世界的信心和期望。更为甚者，企业开始产生了巨大焦虑，高层、乃至基层员工都在焦虑，如何赶上这波红利。

而对我们普通人，尤其是非程序员的普通人，AI对我们的本质影响是什么?

个人觉得，AI大模型，就是一个免费开源超级专家。对于善于探索、主动学习的人，AI大模型的出现，堪比自己在现实世界开挂获得了一个天才智囊团，几乎可以为你的现实生活提供全部帮助。只需你去执行，或者你让你的现实助理去执行。

对于程序员来说，AI的技术红利，我们拥有绝对的优先权。我们可以研发属于自己的AI agent，我们可以重构存量的IT技术世界，让互联网一切都变得AI。