AI大模型进阶系列(01)AI大模型的主流技术 | AI对普通人的本质影响是什么?

又又获奖啦。短短6个月,50%以上作品得到首页推荐,喜出望外接连获得平台授予最佳作品奖、影响力作者、创作者之星荣誉。在写作分享的这条路上,特别感谢开发者社区的不断认可和激励,给了我不断的成长进步空间。开心之余、荣誉之后,无形之中对自己也有了更高的要求和期望,持续坚持去做难而正确的事!2025年属于AI agent元年,除了分享主流技术框架,将更多分享AI方面的实践。

一、前言背景

二、AI大模型核心技术

2.1 大模型推理核心过程

2.2 LLM类型

三、prompt工程

3.1 参数配置

3.2 最佳实践

四、大模型应用高阶技术

4.1 RAG技术

4.1.1 RAG的核心原理

4.1.2 RAG的类型

4.1.2 RAG的应用场景和优势

4.2 模型微调(fine-Tuning)

4.2.1 微调的方法

4.2.2 模型微调和RAG对比

五、AI对我们的本质影响是什么?

一、前言背景

2010年至今,我们见证了移动互联网时代、大数据时代、短视频时代,以及炙手可热的通用AI时代。科技技术迭代之快,让15年时间短得仿若一梦。而强大的AI智能,到底会给我们的现实世界产生哪些影响,尤其是全社会对超级AI能力的无限期许,让AI技术的每一个进展都会成为时下社会关注和讨论的热点。

从2023年底ChatGpt一炮走红,至今不到2年,关于AI技术大模型,涌现的各种技术概念到底是什么?整体AI技术的突破和普及,对普通人又有哪些本质影响?

今天围绕这两个问题,我们进行详细探讨。一来梳理了解掌握AI大模型技术核心技术能力,二来作为一个普通人,如何思考应对和跟上AI时代的进步。

二、AI大模型核心技术

在这信息科技时代,作为一名IT从业人员、尤其是编程研发人员,可以直接探索应用每一项新技术,个人觉得深感荣幸。

最近两年与LLM大模型相关的技术概念,层出不穷。比如AI智能体agent、prompt提示工程、模型推理、RAG、模型微调、模型评估、MCP等关键技术,如果不是亲自实践探索,技术人员同样会感觉陌生。接下来一一浅谈,后面再具体结合实践案例详解。

2.1 大模型推理核心过程

首先,AI大模型不同类型有不同叫法,最早是通用AI大模型、垂直领域大模型。我们普通人接触的元宝、deepseek、kimi等都是通用大模型。用起来也非常简单,我们只要提问题,大模型就能给出专家级的答案。

但是大模型背后的推理过程是怎样的呢?借鉴网上一个非常详细的推理流程图:

大模型的推理过程,实际是通过训练好的模型利用输入的新数据(我们的提问)进行运算得到正确结果的过程,大模型本质依然是一个概率模型。它的推理过程和人的思考过程很相似,尤其是deepseek的出现,让大模型的的核心推理过程可视化,也直接提高了大模型推理结果的可解释性。LLM的推理过程大致如下:

  1. 分词器将输入的提示内容进行拆分,变成一个个token。关于token的本质,每个token不一定是一个词,可能是单词的一分部,或者一个完整的单词,甚至是一个标点符号。而中文里,一般一个汉字就是一个token。当然大模型分词,也可能一个词,一个成语是一个token。不同大模型的token 的拆分算法不同,它对我们的影响主要是输入限制和费用结算。
  2. 将token转换为embedding向量。全部token向量形成embedding矩阵。
  3. embedding矩阵将会作为神经网络transformer的输入。transformer是大模型的核心,他由多层layer组成。transformer的每层layer都采用embedding矩阵+模型参数进行复杂的运算。而这里的self-attention机制,会让每一层layer的输出作为下一层的输入。
  4. 最后神经网络将transformer的输出转成logits。这些logits就是后面output输出的可能标记。也就是每个推理下一个可能的标记,都有对应一个logit。比如让大模型推理这句话的:中国的首都是__?,在logits里,可能会有北京、长安、北平等。
  5. 采用多种采样技术从logits列表里选择下一个标记得到输出token。

我们给大模型输入一段内容,大模型如何推理得到结果?它的核心在于首先将输入的token映射为更高维度的向量,这个和深度学习的基本思想是一致的,通过高维度向量来表达数据内容。

2.2 LLM类型

大模型短短两年发展实在太快,日新月异,新概念新说法新应用层出不穷。而LLM类型,最早是分base模型、chat模型。

base模型是最基础的大模型,它仅仅是在海量文本训练后,提供对文本后续内容预测的模型。base模型给出的响应,仅仅是后续文本的预测,未必真的会是对话命令的响应。比如你问:北京今天的天气怎么样?base模型给出的后续文本预测是:【北京今天的天气怎么样?今天是否适合出行?外面交通情况如何?让我们来分析看看....xxx】

chat模型,是在base模型基础上通过对话记录、指令做强化学习和微调得到具备落地应用能力的大模型。它可以接受用户输入的指令和问答,给出的答案也是遵循之前训练、符合人类预期的AI助理级别的响应内容。ChatGpt也是从这里开始一夜走红。让AI真的像一个AI专家助理出现在大众视野。

此外,根据大模型的能力用途进行扩展分类,市场主流有通用大模型,各大应用店都可以下载用于对话聊天、资讯内容搜索、资料分析总结,这些免费开源的通用大模型,必须满足相关规定才可提供给大众应用。而垂直领域行业专用的商用大模型,大都在各个有能力公司内部自研和自用,这类模型大多有特定商业价值。还有的支持文本分析、多媒体视音频制作整理分析等多模态模型,以及最近发展越来越好的agent智能体,可以直接授权接管电脑手机系统,一句话让agent给你干活的AI助理。

三、prompt工程

对于普通人来说,以及去年大多没有很强的AI研发能力企业,主要是通过prompt 工程在应用大模型的能力。

而prompt的应用也有很多技巧,尤其是研发人员在对接大模型开发过程需要了解和应用这些参数。这些参数将对大模型创作力和确定性产生明显影响。

3.1 参数配置

首先是temperature。这个被称为温度的参数值范围是0-1。当temperature越接近于0,则要求得到高确定性结果。对于创作、想象力推理,比如写诗、写歌,就适合把temperature设置为1,让大模型拥有最高的想象力去推理编写。而对于数据计算分析、股票行情预测、客服问答这种有标准规范精准度要求严格的场景,适合设置为0,让大模型给出确切的结果。

temperature对应影响就是上文2.1推理过程说的logits,每个标记有一个概率值。temperature越低,大模型能选择的top_n就越少,就倾向于选择那些概率值最大的logit。

其次是top_p:top_p和temperature统称为核采样技术(nucleus sampling),专门用来控制模型返回结果的确定性。如果需要准确事实答案,top_n和temperature都应该尽可能调低,甚至为0。如果期望得到富有想象力多样化的结果,就把它调大,甚至为1。Temperature 和 Top P ,一般设置其中一个参数就行。

然后,频率惩罚frequency penalty参数,是对结果重复token的惩罚。这个惩罚值和token在响应和提示出现次数成比例。frequency penalty越高,大模型在响应时出现重复token的可能性就越低。

以及,存在惩罚Presence Penalty参数,这个参数和frequency penalty作用类似,只是这个惩罚对所有重复token是相同的。也就是重复10次和重复100次的token受到的惩罚相同。如果希望模型响应多样化有创作力的结果,就增加这两个参数值,对大模型实施强惩罚。如果希望大模型生成内容更专注,设置较低的参数值。Presence Penalty和frequency penalty这两个参数一般也是设置一个即可。

最后,最大长度max length,用来控制大模型生成token数量。设置这个值有利于防止大模型生产冗长和不想干的内容,以及控制成本。

3.2 最佳实践

prompt是一个完整工程,涉及的内容会很多,不过随着AI技术的进步,prompt的应用要求很可能很快会大幅降低。

首先,prompt应该包含LLM的风格角色,有助于大模型在多轮对话保持稳定。比如在提问之前,设定好大模型的角色:你是一个xx的投顾研究员,擅长xx。

其次,限定任务职责风格:可以回答xxx相关问题,并严格遵守xx,在对话过程保持专业、包容尊重的语气风格。

最后,具体的用户提问内容+对响应格式明确要求,比如要求以json格式,xx的key是xx,并提供一个demo让大模型参考。

这是一个非常常规的一个实践,对于普通用户日常应用AI搜索,甚至只需要在提问里增加大模型角色,以及明确自己需求,大模型就可以给出满意的响应。

在技术侧应用,我们研发很多时候需要考虑合规问题、兜底问题、结果准确性、用户满意度等问题。比如在prompt里,增加一段说明来指导大模型响应:

1、如果答案不确定,可以回答:xxxx,并建议xxx,最后贴上:本内容由AI生成,xx需谨慎。

2、请严格参考xxx里的内容进行响应,不得违反xx。

3、如果结果不满意,可以通过xxx去获取最新知识信息,并重新按要求给出响应。

总的来说,prompt需要明确告诉大模型,你希望它扮演什么角色,并细致说明你的需求,避免模糊笼统的提问,尤其可以通过优质例子和准确的上下文信息,让模型理解你的意图背景。此外需要给模型容错空间还有激励模型反思。

目前RAG技术、和大模型普通支持联网搜索能力的出现,让大模型获取最新知识和专业知识库已经不再是难题,这也让prompt高阶应用要求正在降低。

四、大模型应用高阶技术

AI大模型目前企业内部研发实践主要是通过RAG、模型微调、模型蒸馏、还有function call等方式。不过RAG、模型微调的方式较为普遍,function call实际和RAG有异曲同工之妙。随着MCP的实践普及,function call的方式应用可能很快又被减少。

4.1 RAG技术

RAG(retrieval-augmented generation )检索增强生成,是AI大模型应用的创新方法。通过结合信息检索和文本生成能力,有效提升大模型在知识密集型任务的准确性、可靠性、可解释性,以及大幅减少大模型的幻觉。在deepseek出来之前,很多模型不具备联网搜索能力,目前市面上的【联网搜索】实际也是一种RAG,也称为知识库外挂。

但是在企业应用中,RAG往往是企业内部不便公开的业务数据、知识库。RAG技术价值,在垂直领域大模型里非常明显。比如企业内部的用户数据、沉淀多年的数据仓库、搜索平台数据,研报、法律文本、合同等。RAG让数据孤岛不再孤单,让没有能力自研大模型,没有能力购买GPU的企业,也可以快速应用处于孤岛的数据价值。

4.1.1 RAG的核心原理

RAG核心技术主要包括检索和生成两个阶段。

检索Retrieval:当用户输入问题或者请求后,RAG先通过外部知识库,比如数据库、网页、文档检索与问题相关的数据片段和内容。对应【联网搜索】,就是先从互联网上搜索相关资讯、文章、内容。

生成generation:将检索到的相关内容+具体问题一并输入到大模型中,大模型会基于检索内容生成有明确依据的响应,可以大幅提升大模型可解释性、并减少大模型凭空编造的风险。

RAG技术实现流程大概分3步。首先,构建知识库,比如用于搜索的es、向量数据库FAISS。其次在检索阶段,对用户问题进行编码转为向量,然后通过相似度匹配从知识库里提取top-k的相关数据内容。最后内容生成阶段,将用户问题+检索到的内容拼接,输入给大模型,得到响应。

RAG的prompt提示词,通常设计为:请基于以下依据、证据、原始xx业务数据:{检索阶段得到的数据内容},回答问题:{具体的问题}。并在回答里按xxx要求。。。

4.1.2 RAG的类型

实用的RAG技术,随着不断发展,按照不同特点能力,也衍生了几种类型。

  • naive RAG:使用简单的全文检索或者向量检索,得到与输入内容相关的数据。这是最早期RAG应用实践,naive RAG由于存在缺少语义理解能力,对输出效果提升还有较大空间。
  • advanced RAG : 在naive rag基础上进行了优化,对检索前、中、后进行了加强。其中包括知识库数据质量优化、索引优化、query内容重写、以及embedding 微调,生成对上下文理解更准确的语义向量,检索后,对检索文档的相关性进行reranking,让最终提供给大模型的信息更加集中。
  • agentic RAG:这个是目前最强大的RAG技术,可以动态决策和调用LLM-based agent,实时解决复杂问题。通过动态决策整合多种api或者系统工具能力,提高检索准确性。

4.1.3 RAG的应用场景和优势

RAG适用于对数据时效性高、依赖领域专业知识场景,比如医疗、金融、法律等这种业务场景,以及其他需要实时动态整合应用各种数据、分析有来源依据、准确性要求高的场景。

由于RAG拥有不需要重新训练大模型、计算成本低的优势,所有大模型应用都希望可以实现自己的RAG,让大模型充分发挥它的推理能力,以及提高大模型的可解释性、增强大模型信任度、减少大模型幻觉,这些问题在RAG出来之前都是非常难解决的问题。

不过RAG也有一个缺点,由于新增了检索阶段,在响应上会增加延时,对用户流畅体验上有一些影响。另外维护知识库、数据清洗的成本,相比得到高质量的响应,就不足为道。

4.2 模型微调(fine-Tuning)

在deepseek开源之前,很多企业都在通过微调方式去优化自研的大模型。模型微调也是大模型实践的核心技术,主要是通过预训练好的通用大模型,比如GPT、LLaMA、Bert,通过领域特定的数据集进行针对性的训练,让大模型具备特定任务场景的能力。

模型微调,目标是将通用大模型变成拥有某项专业能力的大模型。往往模型微调后,后续数据更新,模型能力迭代,为了降低重新训练微调成本,需要结合RAG进行使用才能得到较好的效果。

4.2.1 微调的方法

  • 全参数微调(full fine-tuning),对模型全部参数进行调整,通常将学习率设为预训练的0.1~0.01,对通用层设置较低的学习率,而顶层任务相关层设置较高的学习率,避免破坏原有的知识。适合数据量充足、计算资源丰富,但容易过拟合。
  • 指令微调(supervised fine-tuning),通过少量标注数据集,将预训练模型的知识涌现出来。指令微调一般是不能给大模型灌注新的知识,只是将已有的某种知识能力以某类任务的形式去展现。
  • 参数高效微调(parameter efficient FT),针对资源有效,微调少量参数,保留预训练模型的主体知识。

此外还有小样本微调(few shot fine-tuning)、持续微调(continual fine-tunning)、领域自适应微调(domain Adaptation)方法。

4.2.2 模型微调和RAG对比

对于核心的大模型优化有关键作用的模型微调和RAG技术,参考对比列举他们的部分特点。

五、AI对我们的本质影响是什么?

在今年春节前,也就是deepseek出现之前,国内的AI技术发展和应用,存在计算资源限制,导致大模型幻觉、推理效率、模型训练迭代速度慢等问题。间接导致社会对AI普及大众的速度有较大的疑虑,观望者居多。场内只有有资金、技术实力的企业在埋头攻关。

也可以说在deepseek出现之前,大家对AI的应用非常有限,有一种手上拿着万斤金箍棒,但是仅限于把它当做用来挑水的工具,大材小用。

而deepseek的出现,不仅掀起了全世界AI追赶应用的浪潮,也极大提高大家对AI技术可以改变世界的信心和期望。更为甚者,企业开始产生了巨大焦虑,高层、乃至基层员工都在焦虑,如何赶上这波红利。

而对我们普通人,尤其是非程序员的普通人,AI对我们的本质影响是什么?

个人觉得,AI大模型,就是一个免费开源超级专家。对于善于探索、主动学习的人,AI大模型的出现,堪比自己在现实世界开挂获得了一个天才智囊团,几乎可以为你的现实生活提供全部帮助。只需你去执行,或者你让你的现实助理去执行。

对于程序员来说,AI的技术红利,我们拥有绝对的优先权。我们可以研发属于自己的AI agent,我们可以重构存量的IT技术世界,让互联网一切都变得AI。

相关推荐
uhakadotcom7 分钟前
MVC 和 MVVM 架构模式:基础知识与实践
后端·面试·架构
咖啡教室28 分钟前
nodejs开发后端服务详细学习笔记
后端·node.js
uhakadotcom1 小时前
SwiftUI 入门指南:快速构建跨平台应用
面试·架构·github
uhakadotcom2 小时前
OpenTelemetry入门:让你的应用程序更透明
后端·面试·github
橘猫云计算机设计2 小时前
基于springboot的考研成绩查询系统(源码+lw+部署文档+讲解),源码可白嫖!
java·spring boot·后端·python·考研·django·毕业设计
久违の欢喜2 小时前
《云端变革:云计算重塑现代企业架构的实践之路》
架构·云计算
有一只柴犬2 小时前
深入Spring AI:6大核心概念带你入门AI开发
spring boot·后端
过客随尘2 小时前
从设计架构角度对比二进制序列化与JSON序列化
架构
Aurora_NeAr2 小时前
深入理解Java虚拟机-垃圾收集器与内存分配策略
后端
向阳2562 小时前
SpringBoot+vue前后端分离整合sa-token(无cookie登录态 & 详细的登录流程)
java·vue.js·spring boot·后端·sa-token·springboot·登录流程