AI大模型进阶系列(01)AI大模型的主流技术 | AI对普通人的本质影响是什么?

又又获奖啦。短短6个月,50%以上作品得到首页推荐,喜出望外接连获得平台授予最佳作品奖、影响力作者、创作者之星荣誉。在写作分享的这条路上,特别感谢开发者社区的不断认可和激励,给了我不断的成长进步空间。开心之余、荣誉之后,无形之中对自己也有了更高的要求和期望,持续坚持去做难而正确的事!2025年属于AI agent元年,除了分享主流技术框架,将更多分享AI方面的实践。

一、前言背景

二、AI大模型核心技术

2.1 大模型推理核心过程

2.2 LLM类型

三、prompt工程

3.1 参数配置

3.2 最佳实践

四、大模型应用高阶技术

4.1 RAG技术

4.1.1 RAG的核心原理

4.1.2 RAG的类型

4.1.2 RAG的应用场景和优势

4.2 模型微调(fine-Tuning)

4.2.1 微调的方法

4.2.2 模型微调和RAG对比

五、AI对我们的本质影响是什么?

一、前言背景

2010年至今,我们见证了移动互联网时代、大数据时代、短视频时代,以及炙手可热的通用AI时代。科技技术迭代之快,让15年时间短得仿若一梦。而强大的AI智能,到底会给我们的现实世界产生哪些影响,尤其是全社会对超级AI能力的无限期许,让AI技术的每一个进展都会成为时下社会关注和讨论的热点。

从2023年底ChatGpt一炮走红,至今不到2年,关于AI技术大模型,涌现的各种技术概念到底是什么?整体AI技术的突破和普及,对普通人又有哪些本质影响?

今天围绕这两个问题,我们进行详细探讨。一来梳理了解掌握AI大模型技术核心技术能力,二来作为一个普通人,如何思考应对和跟上AI时代的进步。

二、AI大模型核心技术

在这信息科技时代,作为一名IT从业人员、尤其是编程研发人员,可以直接探索应用每一项新技术,个人觉得深感荣幸。

最近两年与LLM大模型相关的技术概念,层出不穷。比如AI智能体agent、prompt提示工程、模型推理、RAG、模型微调、模型评估、MCP等关键技术,如果不是亲自实践探索,技术人员同样会感觉陌生。接下来一一浅谈,后面再具体结合实践案例详解。

2.1 大模型推理核心过程

首先,AI大模型不同类型有不同叫法,最早是通用AI大模型、垂直领域大模型。我们普通人接触的元宝、deepseek、kimi等都是通用大模型。用起来也非常简单,我们只要提问题,大模型就能给出专家级的答案。

但是大模型背后的推理过程是怎样的呢?借鉴网上一个非常详细的推理流程图:

大模型的推理过程,实际是通过训练好的模型利用输入的新数据(我们的提问)进行运算得到正确结果的过程,大模型本质依然是一个概率模型。它的推理过程和人的思考过程很相似,尤其是deepseek的出现,让大模型的的核心推理过程可视化,也直接提高了大模型推理结果的可解释性。LLM的推理过程大致如下:

  1. 分词器将输入的提示内容进行拆分,变成一个个token。关于token的本质,每个token不一定是一个词,可能是单词的一分部,或者一个完整的单词,甚至是一个标点符号。而中文里,一般一个汉字就是一个token。当然大模型分词,也可能一个词,一个成语是一个token。不同大模型的token 的拆分算法不同,它对我们的影响主要是输入限制和费用结算。
  2. 将token转换为embedding向量。全部token向量形成embedding矩阵。
  3. embedding矩阵将会作为神经网络transformer的输入。transformer是大模型的核心,他由多层layer组成。transformer的每层layer都采用embedding矩阵+模型参数进行复杂的运算。而这里的self-attention机制,会让每一层layer的输出作为下一层的输入。
  4. 最后神经网络将transformer的输出转成logits。这些logits就是后面output输出的可能标记。也就是每个推理下一个可能的标记,都有对应一个logit。比如让大模型推理这句话的:中国的首都是__?,在logits里,可能会有北京、长安、北平等。
  5. 采用多种采样技术从logits列表里选择下一个标记得到输出token。

我们给大模型输入一段内容,大模型如何推理得到结果?它的核心在于首先将输入的token映射为更高维度的向量,这个和深度学习的基本思想是一致的,通过高维度向量来表达数据内容。

2.2 LLM类型

大模型短短两年发展实在太快,日新月异,新概念新说法新应用层出不穷。而LLM类型,最早是分base模型、chat模型。

base模型是最基础的大模型,它仅仅是在海量文本训练后,提供对文本后续内容预测的模型。base模型给出的响应,仅仅是后续文本的预测,未必真的会是对话命令的响应。比如你问:北京今天的天气怎么样?base模型给出的后续文本预测是:【北京今天的天气怎么样?今天是否适合出行?外面交通情况如何?让我们来分析看看....xxx】

chat模型,是在base模型基础上通过对话记录、指令做强化学习和微调得到具备落地应用能力的大模型。它可以接受用户输入的指令和问答,给出的答案也是遵循之前训练、符合人类预期的AI助理级别的响应内容。ChatGpt也是从这里开始一夜走红。让AI真的像一个AI专家助理出现在大众视野。

此外,根据大模型的能力用途进行扩展分类,市场主流有通用大模型,各大应用店都可以下载用于对话聊天、资讯内容搜索、资料分析总结,这些免费开源的通用大模型,必须满足相关规定才可提供给大众应用。而垂直领域行业专用的商用大模型,大都在各个有能力公司内部自研和自用,这类模型大多有特定商业价值。还有的支持文本分析、多媒体视音频制作整理分析等多模态模型,以及最近发展越来越好的agent智能体,可以直接授权接管电脑手机系统,一句话让agent给你干活的AI助理。

三、prompt工程

对于普通人来说,以及去年大多没有很强的AI研发能力企业,主要是通过prompt 工程在应用大模型的能力。

而prompt的应用也有很多技巧,尤其是研发人员在对接大模型开发过程需要了解和应用这些参数。这些参数将对大模型创作力和确定性产生明显影响。

3.1 参数配置

首先是temperature。这个被称为温度的参数值范围是0-1。当temperature越接近于0,则要求得到高确定性结果。对于创作、想象力推理,比如写诗、写歌,就适合把temperature设置为1,让大模型拥有最高的想象力去推理编写。而对于数据计算分析、股票行情预测、客服问答这种有标准规范精准度要求严格的场景,适合设置为0,让大模型给出确切的结果。

temperature对应影响就是上文2.1推理过程说的logits,每个标记有一个概率值。temperature越低,大模型能选择的top_n就越少,就倾向于选择那些概率值最大的logit。

其次是top_p:top_p和temperature统称为核采样技术(nucleus sampling),专门用来控制模型返回结果的确定性。如果需要准确事实答案,top_n和temperature都应该尽可能调低,甚至为0。如果期望得到富有想象力多样化的结果,就把它调大,甚至为1。Temperature 和 Top P ,一般设置其中一个参数就行。

然后,频率惩罚frequency penalty参数,是对结果重复token的惩罚。这个惩罚值和token在响应和提示出现次数成比例。frequency penalty越高,大模型在响应时出现重复token的可能性就越低。

以及,存在惩罚Presence Penalty参数,这个参数和frequency penalty作用类似,只是这个惩罚对所有重复token是相同的。也就是重复10次和重复100次的token受到的惩罚相同。如果希望模型响应多样化有创作力的结果,就增加这两个参数值,对大模型实施强惩罚。如果希望大模型生成内容更专注,设置较低的参数值。Presence Penalty和frequency penalty这两个参数一般也是设置一个即可。

最后,最大长度max length,用来控制大模型生成token数量。设置这个值有利于防止大模型生产冗长和不想干的内容,以及控制成本。

3.2 最佳实践

prompt是一个完整工程,涉及的内容会很多,不过随着AI技术的进步,prompt的应用要求很可能很快会大幅降低。

首先,prompt应该包含LLM的风格角色,有助于大模型在多轮对话保持稳定。比如在提问之前,设定好大模型的角色:你是一个xx的投顾研究员,擅长xx。

其次,限定任务职责风格:可以回答xxx相关问题,并严格遵守xx,在对话过程保持专业、包容尊重的语气风格。

最后,具体的用户提问内容+对响应格式明确要求,比如要求以json格式,xx的key是xx,并提供一个demo让大模型参考。

这是一个非常常规的一个实践,对于普通用户日常应用AI搜索,甚至只需要在提问里增加大模型角色,以及明确自己需求,大模型就可以给出满意的响应。

在技术侧应用,我们研发很多时候需要考虑合规问题、兜底问题、结果准确性、用户满意度等问题。比如在prompt里,增加一段说明来指导大模型响应:

1、如果答案不确定,可以回答:xxxx,并建议xxx,最后贴上:本内容由AI生成,xx需谨慎。

2、请严格参考xxx里的内容进行响应,不得违反xx。

3、如果结果不满意,可以通过xxx去获取最新知识信息,并重新按要求给出响应。

总的来说,prompt需要明确告诉大模型,你希望它扮演什么角色,并细致说明你的需求,避免模糊笼统的提问,尤其可以通过优质例子和准确的上下文信息,让模型理解你的意图背景。此外需要给模型容错空间还有激励模型反思。

目前RAG技术、和大模型普通支持联网搜索能力的出现,让大模型获取最新知识和专业知识库已经不再是难题,这也让prompt高阶应用要求正在降低。

四、大模型应用高阶技术

AI大模型目前企业内部研发实践主要是通过RAG、模型微调、模型蒸馏、还有function call等方式。不过RAG、模型微调的方式较为普遍,function call实际和RAG有异曲同工之妙。随着MCP的实践普及,function call的方式应用可能很快又被减少。

4.1 RAG技术

RAG(retrieval-augmented generation )检索增强生成,是AI大模型应用的创新方法。通过结合信息检索和文本生成能力,有效提升大模型在知识密集型任务的准确性、可靠性、可解释性,以及大幅减少大模型的幻觉。在deepseek出来之前,很多模型不具备联网搜索能力,目前市面上的【联网搜索】实际也是一种RAG,也称为知识库外挂。

但是在企业应用中,RAG往往是企业内部不便公开的业务数据、知识库。RAG技术价值,在垂直领域大模型里非常明显。比如企业内部的用户数据、沉淀多年的数据仓库、搜索平台数据,研报、法律文本、合同等。RAG让数据孤岛不再孤单,让没有能力自研大模型,没有能力购买GPU的企业,也可以快速应用处于孤岛的数据价值。

4.1.1 RAG的核心原理

RAG核心技术主要包括检索和生成两个阶段。

检索Retrieval:当用户输入问题或者请求后,RAG先通过外部知识库,比如数据库、网页、文档检索与问题相关的数据片段和内容。对应【联网搜索】,就是先从互联网上搜索相关资讯、文章、内容。

生成generation:将检索到的相关内容+具体问题一并输入到大模型中,大模型会基于检索内容生成有明确依据的响应,可以大幅提升大模型可解释性、并减少大模型凭空编造的风险。

RAG技术实现流程大概分3步。首先,构建知识库,比如用于搜索的es、向量数据库FAISS。其次在检索阶段,对用户问题进行编码转为向量,然后通过相似度匹配从知识库里提取top-k的相关数据内容。最后内容生成阶段,将用户问题+检索到的内容拼接,输入给大模型,得到响应。

RAG的prompt提示词,通常设计为:请基于以下依据、证据、原始xx业务数据:{检索阶段得到的数据内容},回答问题:{具体的问题}。并在回答里按xxx要求。。。

4.1.2 RAG的类型

实用的RAG技术,随着不断发展,按照不同特点能力,也衍生了几种类型。

  • naive RAG:使用简单的全文检索或者向量检索,得到与输入内容相关的数据。这是最早期RAG应用实践,naive RAG由于存在缺少语义理解能力,对输出效果提升还有较大空间。
  • advanced RAG : 在naive rag基础上进行了优化,对检索前、中、后进行了加强。其中包括知识库数据质量优化、索引优化、query内容重写、以及embedding 微调,生成对上下文理解更准确的语义向量,检索后,对检索文档的相关性进行reranking,让最终提供给大模型的信息更加集中。
  • agentic RAG:这个是目前最强大的RAG技术,可以动态决策和调用LLM-based agent,实时解决复杂问题。通过动态决策整合多种api或者系统工具能力,提高检索准确性。

4.1.3 RAG的应用场景和优势

RAG适用于对数据时效性高、依赖领域专业知识场景,比如医疗、金融、法律等这种业务场景,以及其他需要实时动态整合应用各种数据、分析有来源依据、准确性要求高的场景。

由于RAG拥有不需要重新训练大模型、计算成本低的优势,所有大模型应用都希望可以实现自己的RAG,让大模型充分发挥它的推理能力,以及提高大模型的可解释性、增强大模型信任度、减少大模型幻觉,这些问题在RAG出来之前都是非常难解决的问题。

不过RAG也有一个缺点,由于新增了检索阶段,在响应上会增加延时,对用户流畅体验上有一些影响。另外维护知识库、数据清洗的成本,相比得到高质量的响应,就不足为道。

4.2 模型微调(fine-Tuning)

在deepseek开源之前,很多企业都在通过微调方式去优化自研的大模型。模型微调也是大模型实践的核心技术,主要是通过预训练好的通用大模型,比如GPT、LLaMA、Bert,通过领域特定的数据集进行针对性的训练,让大模型具备特定任务场景的能力。

模型微调,目标是将通用大模型变成拥有某项专业能力的大模型。往往模型微调后,后续数据更新,模型能力迭代,为了降低重新训练微调成本,需要结合RAG进行使用才能得到较好的效果。

4.2.1 微调的方法

  • 全参数微调(full fine-tuning),对模型全部参数进行调整,通常将学习率设为预训练的0.1~0.01,对通用层设置较低的学习率,而顶层任务相关层设置较高的学习率,避免破坏原有的知识。适合数据量充足、计算资源丰富,但容易过拟合。
  • 指令微调(supervised fine-tuning),通过少量标注数据集,将预训练模型的知识涌现出来。指令微调一般是不能给大模型灌注新的知识,只是将已有的某种知识能力以某类任务的形式去展现。
  • 参数高效微调(parameter efficient FT),针对资源有效,微调少量参数,保留预训练模型的主体知识。

此外还有小样本微调(few shot fine-tuning)、持续微调(continual fine-tunning)、领域自适应微调(domain Adaptation)方法。

4.2.2 模型微调和RAG对比

对于核心的大模型优化有关键作用的模型微调和RAG技术,参考对比列举他们的部分特点。

五、AI对我们的本质影响是什么?

在今年春节前,也就是deepseek出现之前,国内的AI技术发展和应用,存在计算资源限制,导致大模型幻觉、推理效率、模型训练迭代速度慢等问题。间接导致社会对AI普及大众的速度有较大的疑虑,观望者居多。场内只有有资金、技术实力的企业在埋头攻关。

也可以说在deepseek出现之前,大家对AI的应用非常有限,有一种手上拿着万斤金箍棒,但是仅限于把它当做用来挑水的工具,大材小用。

而deepseek的出现,不仅掀起了全世界AI追赶应用的浪潮,也极大提高大家对AI技术可以改变世界的信心和期望。更为甚者,企业开始产生了巨大焦虑,高层、乃至基层员工都在焦虑,如何赶上这波红利。

而对我们普通人,尤其是非程序员的普通人,AI对我们的本质影响是什么?

个人觉得,AI大模型,就是一个免费开源超级专家。对于善于探索、主动学习的人,AI大模型的出现,堪比自己在现实世界开挂获得了一个天才智囊团,几乎可以为你的现实生活提供全部帮助。只需你去执行,或者你让你的现实助理去执行。

对于程序员来说,AI的技术红利,我们拥有绝对的优先权。我们可以研发属于自己的AI agent,我们可以重构存量的IT技术世界,让互联网一切都变得AI。

相关推荐
打码人的日常分享24 分钟前
物联网智慧医院建设方案(PPT)
大数据·物联网·架构·流程图·智慧城市·制造
咖啡啡不加糖1 小时前
Redis大key产生、排查与优化实践
java·数据库·redis·后端·缓存
白水baishui1 小时前
搭建强化推荐的决策服务架构
架构·推荐系统·强化学习·决策服务·服务架构
何双新1 小时前
第23讲、Odoo18 邮件系统整体架构
ai·架构
雪碧聊技术1 小时前
将单体架构项目拆分成微服务时的两种工程结构
微服务·架构·module·project·工程结构
大鸡腿同学1 小时前
纳瓦尔宝典
后端
从零开始学习人工智能2 小时前
Doris 数据库深度解析:架构、原理与实战应用
数据库·架构
程序员JerrySUN3 小时前
[特殊字符] 深入理解 Linux 内核进程管理:架构、核心函数与调度机制
java·linux·架构
2302_809798323 小时前
【JavaWeb】Docker项目部署
java·运维·后端·青少年编程·docker·容器