前言:写给零基础想学大模型的自己
最近我下定决心系统学习大模型应用开发、RAG知识库、Agent智能体。刚开始学习的时候,我踩了很多新手常见的坑:盲目去啃高数、深度学习公式、神经网络推导,花费大量时间,却依然看不懂大模型到底是什么、能干什么。
我明确了自己的学习定位:专注上层大模型应用开发。不用从零训练模型、不用钻研底层算法,只需要学会调用模型、组装AI能力、开发落地业务AI系统。
为此我整理了这一篇个人向前置知识笔记 ,把所有入门必须看懂的名词、底层逻辑、技术边界全部通俗拆解,每一个专业名词都附带直白解释,零基础也能看懂,专门留给自己后续复习查阅。
一、明确学习方向:专注大模型应用开发
在正式入门学习前,我需要清晰界定学习范围,剔除无用知识,避免盲目学习、白费时间。
1.1 大模型应用开发是什么?
简单来说,就是基于市面上成熟的大模型,做二次开发与功能搭建。核心工作包含:调用大模型接口、编写优质提示词、搭建私有知识库RAG、开发自动化Agent智能体、编排智能化工作流、部署上线AI业务系统。
1.2 个人学习准则
**只学应用、不学底层研发;只学使用、不学模型训练。**不用钻研高数推导、不用手写神经网络、不用了解模型分布式训练,一切以能落地开发项目为核心目标。
个人学习原则:只深耕应用层刚需内容,舍弃一切底层算法晦涩知识。
二、AI完整层级关系(个人背诵清单)
为了理清逻辑,我把AI行业层级从大到小排序,通俗易懂理解从属关系,建立完整知识框架:
人工智能 > 机器学习 > 深度学习 > 神经网络 > Transformer > 大模型LLM > RAG/Agent应用
2.1 逐个名词通俗解释
-
人工智能(AI):最大范畴,泛指让机器模仿人类思考、判断、执行任务的所有技术。
-
机器学习(ML) :AI的分支,核心是不用人写死固定规则,让机器通过数据自己总结规律。
-
深度学习(DL):机器学习的分支,使用多层神经网络,自动提取数据特征,不需要人工手动筛选特征。
-
神经网络:模仿人类大脑神经元的数学结构,是深度学习的基础载体。
-
Transformer:一种神经网络架构,是目前所有大模型的底层底座。
-
大模型(LLM):堆叠大量Transformer层、拥有海量参数的巨型模型,具备通用语言理解、生成能力。
-
RAG/Agent:基于现成大模型搭建的上层应用,也是我未来重点开发的产品。
三、机器学习前置知识(应用岗极简版)
我不需要学机器学习算法推导、公式演算,只需要搞懂基础逻辑、熟记常用专业名词,满足开发理解需求即可。
3.1 传统编程 vs 机器学习
-
传统编程:人写死固定规则,机器死板执行,超出规则范围的数据无法处理。
-
机器学习:给机器大量原始数据,机器自动归纳隐藏规律,能够处理从未见过的陌生数据。
3.2 机器学习三大学习范式(通俗解释)
1)监督学习
定义:带有标准答案(标签)的学习方式,给模型输入数据+对应结果,让模型学习两者之间的关联关系。
-
分类:判断事物类别,比如判断邮件是否为垃圾邮件、评论是好评还是差评。
-
回归:预测连续数值,比如预测房价、预测未来销量。
2)无监督学习
定义:没有任何标准答案,机器自主分析数据内部结构,自动完成分组、聚类、数据压缩。常见场景:用户分群、异常流量检测。
3)强化学习
定义:智能体在固定环境中不断试错,通过奖励、惩罚机制优化自身行为。大模型的RLHF人类对齐、游戏AI、机器人控制都用这种方式。
3.3 必须熟记的5个机器学习核心名词
-
过拟合:模型死记硬背训练数据,适配旧数据能力极强,遇到陌生新数据就出错,泛化能力差。
-
欠拟合:模型逻辑过于简单,无法捕捉数据规律,连训练数据都学不好。
-
特征:数据中有效的关键信息,比如图片的线条、文本的关键词。
-
向量:把文字、图片等非数字信息,转化为一串数字,方便计算机计算相似度,是RAG检索的核心。
-
泛化能力:模型处理陌生新数据的能力,是评判模型好坏的核心标准。
四、三大神经网络详解(CNN/RNN/Transformer)
这三类网络是AI技术发展史的核心,我不用手写代码、不用数学推导,只需要记住用途、优缺点、适用场景,看懂大模型演变逻辑即可。
4.1 CNN 卷积神经网络
核心定位
专门处理图片、图像数据,日常人脸识别、图片分类、图像识别全部依靠CNN。
通俗原理
用一个小型滑动窗口(卷积核)在图片上不断扫描识别:第一层识别简单线条、第二层识别纹理轮廓、深层组合识别五官、物体,层层叠加完成图像判断。
优缺点总结
-
优点:擅长捕捉图像局部特征,识别精度高、算力消耗低。
-
缺点:无法识别顺序关系,不能理解文本上下文,只适用于图像领域。
4.2 RNN 循环神经网络(老旧文本网络)
核心定位
早期专门处理文本、语音、股价等有先后顺序的数据,是大模型诞生之前的主流文本网络。
通俗原理
按照顺序逐字读取文本,读完一个字后,保留当前记忆,带入下一个文字继续分析,以此串联全文语义。
致命缺点
-
长距离失忆:文本过长时,会丢失开头的关键信息。
-
运行速度慢:只能逐字串行读取,无法并行计算。
目前已被彻底淘汰,仅作历史知识了解即可。
4.3 Transformer(现代大模型核心底座)
核心定位
当下所有大模型、AI绘图、多模态模型的唯一底层架构,完美解决了RNN的所有缺陷。
核心灵魂:自注意力机制(通俗解释)
不用逐字排队读取,一句话中每一个字可以直接关联全文所有文字 ,远距离捕捉语义关系。举个例子:小明把书包弄丢了,他很着急,模型可以直接判定句中「他」指代小明。
两大基础结构
-
Encoder编码器:专注理解语义、生成文本向量,RAG嵌入检索主要依靠该结构。
-
Decoder解码器:专注自由生成文字,日常聊天、文案续写的大模型均使用此结构。
核心优势
-
无长文本失忆问题,远距离语义关联精准;
-
支持并行计算,运行、训练速度大幅提升;
-
可多层堆叠,搭建千亿、万亿参数巨型大模型。
五、大模型高频专业名词(必背通俗解释)
这些名词是开发、查阅文档、调试项目的高频词汇,全部通俗易懂解释,无专业晦涩话术,必须熟记。
-
Token(令牌):大模型最小计算单位,汉字、字母、标点、空格都算Token,直接决定计费标准和上下文记忆长度。
-
上下文窗口:大模型一次性能够记住的最大文字长度,窗口越大,能处理的文本越长。
-
Temperature(温度):控制大模型回答的随机性,数值越高回答越天马行空,越低回答越严谨规整。
-
幻觉:大模型没有事实依据,一本正经编造虚假信息、错误数据,是大模型最常见的问题。
-
Embedding(嵌入向量):将文字、图片转化为数字化向量,语义相近的内容向量相似度更高,是RAG知识库检索的核心原理。
-
Function Calling(函数调用):大模型自主判断用户需求,主动调用外部工具、接口完成任务,是Agent智能体的核心能力。
-
微调(Fine-tune):在通用大模型基础上,用垂直领域数据优化模型,定制专属行业模型。
-
LoRA:低成本、轻量化的微调方案,不用改动大模型全部参数,适合入门开发者使用。
六、RAG知识库:企业主流AI应用架构
6.1 什么是RAG?
RAG全称检索增强生成,是解决大模型幻觉、知识滞后、无法使用私有数据的最优方案,也是目前企业开发AI系统的必备技术。
6.2 RAG标准开发流程
-
文档加载:导入PDF、Word、网页、本地文本等私有文件;
-
文本分块:把冗长文档切割成大小适中的文本片段;
-
向量化:通过嵌入模型,将文本转为数字向量;
-
向量入库:把向量存储到向量数据库中;
-
语义检索:用户提问时,匹配数据库中相似度最高的文本;
-
大模型生成:结合检索到的真实资料,输出精准、无幻觉的答案。
七、Agent智能体核心概念(Skill+Harness详解)
Agent是当下热门且高薪的技术方向,主打自主思考、自动执行复杂任务,这里通俗拆解核心专有名词。
7.1 Agent四大核心组成
大模型大脑 + 任务规划能力 + 工具使用技能 + 长期记忆系统。
7.2 Skill(技能插件)
通俗定义
Agent最小执行单元,单一职责、可自由插拔的工具能力。
直白理解
把Agent比作一个人,Skill就是他掌握的技能:查天气、爬取数据、分析表格、解析文档。
核心特点
-
被动触发:需要调度指令才会执行,无自主决策能力;
-
单一职责:一个Skill只负责完成一件事;
-
灵活插拔:按需新增、删除技能,无需改动主体代码。
7.3 Harness(运行基座/调度框架)
通俗定义
统一管理、调度、编排所有Skill和Agent的底层运行框架。
直白理解
Skill是干活的工人,Harness就是工厂的流水线+管理系统,负责统筹所有工人工作。
核心作用
-
加载、管理所有技能插件;
-
分发任务、控制执行流程;
-
维护会话记忆、上下文信息;
-
处理报错、重试、日志监控、流量限流。
7.4 Skill vs Harness 简明对比
| 维度 | Skill | Harness |
|---|---|---|
| 定位 | 能力插件、最小执行单元 | 调度框架、运行基座 |
| 作用 | 执行具体业务、完成单一任务 | 统筹管理、编排任务流程 |
| 关系 | 被Harness调度调用 | 统一管控所有Skill |
八、个人学习划分:必学、了解、不用学
为避免盲目学习,我整理了专属个人学习清单,精准划分知识边界,只抓核心重点。
8.1 必须掌握(刚需必备)
-
Python基础语法、常用工具库(requests、pandas);
-
计算机网络基础:HTTP、POST、JSON、接口调用逻辑;
-
Linux简单命令、Git基础操作(用于部署、拉取开源项目);
-
向量数据库基础、Embedding向量原理;
-
提示词工程、RAG知识库、Agent基础开发逻辑。
8.2 简单了解(无需手写代码)
-
机器学习基础名词概念;
-
CNN/RNN/Transformer网络区别与用途;
-
模型微调、LoRA、RLHF基础概念。
8.3 了解即可
-
高等数学、矩阵、概率等数学推导公式;
-
反向传播、梯度下降等底层训练逻辑;
-
模型预训练、GPU算力优化、分布式部署;
-
神经网络底层源码编写。
九、个人专属最简学习路线
-
夯实Python、计算机网络基础,搞定开发环境;
-
熟记所有大模型专业名词,建立基础认知;
-
吃透三大神经网络区别,明白大模型底层逻辑;
-
深耕提示词工程,掌握高质量Prompt编写技巧;
-
从零搭建RAG知识库,完成实战项目;
-
学习工具调用,开发基础单Agent智能体;
-
掌握Skill+Harness架构,熟练使用工作流编排;
-
学习项目部署,完成完整AI应用落地。
十、个人总结
对于大模型应用开发而言,不用钻研晦涩的底层算法,不用纠结数学公式,核心比拼的是知识整合能力、架构组装能力、业务落地能力。
这篇笔记汇总了所有入门前置知识,全程通俗易懂、无冗余内容。后续我将以这份笔记为基础,循序渐进学习实战项目,深耕RAG与Agent开发,稳步进阶大模型应用开发。