大模型学习规划

前言：写给零基础想学大模型的自己

最近我下定决心系统学习大模型应用开发、RAG知识库、Agent智能体。刚开始学习的时候，我踩了很多新手常见的坑：盲目去啃高数、深度学习公式、神经网络推导，花费大量时间，却依然看不懂大模型到底是什么、能干什么。

我明确了自己的学习定位：专注上层大模型应用开发。不用从零训练模型、不用钻研底层算法，只需要学会调用模型、组装AI能力、开发落地业务AI系统。

为此我整理了这一篇个人向前置知识笔记 ，把所有入门必须看懂的名词、底层逻辑、技术边界全部通俗拆解，每一个专业名词都附带直白解释，零基础也能看懂，专门留给自己后续复习查阅。

一、明确学习方向：专注大模型应用开发

在正式入门学习前，我需要清晰界定学习范围，剔除无用知识，避免盲目学习、白费时间。

1.1 大模型应用开发是什么？

简单来说，就是基于市面上成熟的大模型，做二次开发与功能搭建。核心工作包含：调用大模型接口、编写优质提示词、搭建私有知识库RAG、开发自动化Agent智能体、编排智能化工作流、部署上线AI业务系统。

1.2 个人学习准则

**只学应用、不学底层研发；只学使用、不学模型训练。**不用钻研高数推导、不用手写神经网络、不用了解模型分布式训练，一切以能落地开发项目为核心目标。

个人学习原则：只深耕应用层刚需内容，舍弃一切底层算法晦涩知识。

二、AI完整层级关系（个人背诵清单）

为了理清逻辑，我把AI行业层级从大到小排序，通俗易懂理解从属关系，建立完整知识框架：

人工智能 > 机器学习 > 深度学习 > 神经网络 > Transformer > 大模型LLM > RAG/Agent应用

2.1 逐个名词通俗解释

人工智能（AI）：最大范畴，泛指让机器模仿人类思考、判断、执行任务的所有技术。
机器学习（ML） ：AI的分支，核心是不用人写死固定规则，让机器通过数据自己总结规律。
深度学习（DL）：机器学习的分支，使用多层神经网络，自动提取数据特征，不需要人工手动筛选特征。
神经网络：模仿人类大脑神经元的数学结构，是深度学习的基础载体。
Transformer：一种神经网络架构，是目前所有大模型的底层底座。
大模型（LLM）：堆叠大量Transformer层、拥有海量参数的巨型模型，具备通用语言理解、生成能力。
RAG/Agent：基于现成大模型搭建的上层应用，也是我未来重点开发的产品。

三、机器学习前置知识（应用岗极简版）

我不需要学机器学习算法推导、公式演算，只需要搞懂基础逻辑、熟记常用专业名词，满足开发理解需求即可。

3.1 传统编程 vs 机器学习

传统编程：人写死固定规则，机器死板执行，超出规则范围的数据无法处理。
机器学习：给机器大量原始数据，机器自动归纳隐藏规律，能够处理从未见过的陌生数据。

3.2 机器学习三大学习范式（通俗解释）

1）监督学习

定义：带有标准答案（标签）的学习方式，给模型输入数据+对应结果，让模型学习两者之间的关联关系。

分类：判断事物类别，比如判断邮件是否为垃圾邮件、评论是好评还是差评。
回归：预测连续数值，比如预测房价、预测未来销量。

2）无监督学习

定义：没有任何标准答案，机器自主分析数据内部结构，自动完成分组、聚类、数据压缩。常见场景：用户分群、异常流量检测。

3）强化学习

定义：智能体在固定环境中不断试错，通过奖励、惩罚机制优化自身行为。大模型的RLHF人类对齐、游戏AI、机器人控制都用这种方式。

3.3 必须熟记的5个机器学习核心名词

过拟合：模型死记硬背训练数据，适配旧数据能力极强，遇到陌生新数据就出错，泛化能力差。
欠拟合：模型逻辑过于简单，无法捕捉数据规律，连训练数据都学不好。
特征：数据中有效的关键信息，比如图片的线条、文本的关键词。
向量：把文字、图片等非数字信息，转化为一串数字，方便计算机计算相似度，是RAG检索的核心。
泛化能力：模型处理陌生新数据的能力，是评判模型好坏的核心标准。

四、三大神经网络详解（CNN/RNN/Transformer）

这三类网络是AI技术发展史的核心，我不用手写代码、不用数学推导，只需要记住用途、优缺点、适用场景，看懂大模型演变逻辑即可。

4.1 CNN 卷积神经网络

核心定位

专门处理图片、图像数据，日常人脸识别、图片分类、图像识别全部依靠CNN。

通俗原理

用一个小型滑动窗口（卷积核）在图片上不断扫描识别：第一层识别简单线条、第二层识别纹理轮廓、深层组合识别五官、物体，层层叠加完成图像判断。

优缺点总结

优点：擅长捕捉图像局部特征，识别精度高、算力消耗低。
缺点：无法识别顺序关系，不能理解文本上下文，只适用于图像领域。

4.2 RNN 循环神经网络（老旧文本网络）

核心定位

早期专门处理文本、语音、股价等有先后顺序的数据，是大模型诞生之前的主流文本网络。

通俗原理

按照顺序逐字读取文本，读完一个字后，保留当前记忆，带入下一个文字继续分析，以此串联全文语义。

致命缺点

长距离失忆：文本过长时，会丢失开头的关键信息。
运行速度慢：只能逐字串行读取，无法并行计算。

目前已被彻底淘汰，仅作历史知识了解即可。

4.3 Transformer（现代大模型核心底座）

核心定位

当下所有大模型、AI绘图、多模态模型的唯一底层架构，完美解决了RNN的所有缺陷。

核心灵魂：自注意力机制（通俗解释）

不用逐字排队读取，一句话中每一个字可以直接关联全文所有文字 ，远距离捕捉语义关系。举个例子：小明把书包弄丢了，他很着急，模型可以直接判定句中「他」指代小明。

两大基础结构

Encoder编码器：专注理解语义、生成文本向量，RAG嵌入检索主要依靠该结构。
Decoder解码器：专注自由生成文字，日常聊天、文案续写的大模型均使用此结构。

核心优势

无长文本失忆问题，远距离语义关联精准；
支持并行计算，运行、训练速度大幅提升；
可多层堆叠，搭建千亿、万亿参数巨型大模型。

五、大模型高频专业名词（必背通俗解释）

这些名词是开发、查阅文档、调试项目的高频词汇，全部通俗易懂解释，无专业晦涩话术，必须熟记。

Token（令牌）：大模型最小计算单位，汉字、字母、标点、空格都算Token，直接决定计费标准和上下文记忆长度。
上下文窗口：大模型一次性能够记住的最大文字长度，窗口越大，能处理的文本越长。
Temperature（温度）：控制大模型回答的随机性，数值越高回答越天马行空，越低回答越严谨规整。
幻觉：大模型没有事实依据，一本正经编造虚假信息、错误数据，是大模型最常见的问题。
Embedding（嵌入向量）：将文字、图片转化为数字化向量，语义相近的内容向量相似度更高，是RAG知识库检索的核心原理。
Function Calling（函数调用）：大模型自主判断用户需求，主动调用外部工具、接口完成任务，是Agent智能体的核心能力。
微调（Fine-tune）：在通用大模型基础上，用垂直领域数据优化模型，定制专属行业模型。
LoRA：低成本、轻量化的微调方案，不用改动大模型全部参数，适合入门开发者使用。

六、RAG知识库：企业主流AI应用架构

6.1 什么是RAG？

RAG全称检索增强生成，是解决大模型幻觉、知识滞后、无法使用私有数据的最优方案，也是目前企业开发AI系统的必备技术。

6.2 RAG标准开发流程

文档加载：导入PDF、Word、网页、本地文本等私有文件；
文本分块：把冗长文档切割成大小适中的文本片段；
向量化：通过嵌入模型，将文本转为数字向量；
向量入库：把向量存储到向量数据库中；
语义检索：用户提问时，匹配数据库中相似度最高的文本；
大模型生成：结合检索到的真实资料，输出精准、无幻觉的答案。

七、Agent智能体核心概念（Skill+Harness详解）

Agent是当下热门且高薪的技术方向，主打自主思考、自动执行复杂任务，这里通俗拆解核心专有名词。

7.1 Agent四大核心组成

大模型大脑 + 任务规划能力 + 工具使用技能 + 长期记忆系统。

7.2 Skill（技能插件）

通俗定义

Agent最小执行单元，单一职责、可自由插拔的工具能力。

直白理解

把Agent比作一个人，Skill就是他掌握的技能：查天气、爬取数据、分析表格、解析文档。

核心特点

被动触发：需要调度指令才会执行，无自主决策能力；
单一职责：一个Skill只负责完成一件事；
灵活插拔：按需新增、删除技能，无需改动主体代码。

7.3 Harness（运行基座/调度框架）

通俗定义

统一管理、调度、编排所有Skill和Agent的底层运行框架。

直白理解

Skill是干活的工人，Harness就是工厂的流水线+管理系统，负责统筹所有工人工作。

核心作用

加载、管理所有技能插件；
分发任务、控制执行流程；
维护会话记忆、上下文信息；
处理报错、重试、日志监控、流量限流。

7.4 Skill vs Harness 简明对比

维度	Skill	Harness
定位	能力插件、最小执行单元	调度框架、运行基座
作用	执行具体业务、完成单一任务	统筹管理、编排任务流程
关系	被Harness调度调用	统一管控所有Skill

八、个人学习划分：必学、了解、不用学

为避免盲目学习，我整理了专属个人学习清单，精准划分知识边界，只抓核心重点。

8.1 必须掌握（刚需必备）

Python基础语法、常用工具库（requests、pandas）；
计算机网络基础：HTTP、POST、JSON、接口调用逻辑；
Linux简单命令、Git基础操作（用于部署、拉取开源项目）；
向量数据库基础、Embedding向量原理；
提示词工程、RAG知识库、Agent基础开发逻辑。

8.2 简单了解（无需手写代码）

机器学习基础名词概念；
CNN/RNN/Transformer网络区别与用途；
模型微调、LoRA、RLHF基础概念。

8.3 了解即可

高等数学、矩阵、概率等数学推导公式；
反向传播、梯度下降等底层训练逻辑；
模型预训练、GPU算力优化、分布式部署；
神经网络底层源码编写。

九、个人专属最简学习路线

夯实Python、计算机网络基础，搞定开发环境；
熟记所有大模型专业名词，建立基础认知；
吃透三大神经网络区别，明白大模型底层逻辑；
深耕提示词工程，掌握高质量Prompt编写技巧；
从零搭建RAG知识库，完成实战项目；
学习工具调用，开发基础单Agent智能体；
掌握Skill+Harness架构，熟练使用工作流编排；
学习项目部署，完成完整AI应用落地。

十、个人总结

对于大模型应用开发而言，不用钻研晦涩的底层算法，不用纠结数学公式，核心比拼的是知识整合能力、架构组装能力、业务落地能力。

这篇笔记汇总了所有入门前置知识，全程通俗易懂、无冗余内容。后续我将以这份笔记为基础，循序渐进学习实战项目，深耕RAG与Agent开发，稳步进阶大模型应用开发。