AI实践(0)学习路线
Author: Once Day Date: 2026年2月28日
一位热衷于Linux学习和开发的菜鸟,试图谱写一场冒险之旅,也许终点只是一场白日梦...
漫漫长路,有人对你微笑过嘛...
全系列文章可参考专栏: AI实践成长_Once-Day的博客-CSDN博客
参考文章:
- 文档 -- Claude 中文 - Claude AI 开发技术社区
- 从零到专家:普通人学习人工智能的完整指南 - 软件职业规划 - 博客园
- 小白变大神!2025年人工智能(AI)初学者学习路线图,轻松从入门到高手! - 知乎
- OpenAI for developers
- 提示工程指南:生成式人工智能终极指南 --- Prompt Engineering Guide: The Ultimate Guide to Generative AI
- OpenAI 文档介绍 | OpenAI 官方帮助文档中文版
- 文本补全(Text completion) | OpenAI 官方帮助文档中文版
- Home - Docs by LangChain
- ReAct范式全流程详解-CSDN博客
- 我用 OpenCode 跑 AI 编程工作流------桌面批注、Web UI、手机监工
- 用了 9 个月 AI 编程后,我只推荐这一套工作流------别让 AI 直接写代码
文章目录
- AI实践(0)学习路线
-
-
-
- [1. 为什么学习AI使用方法?](#1. 为什么学习AI使用方法?)
- [2. 核心概念介绍](#2. 核心概念介绍)
- [3. AI核心技能](#3. AI核心技能)
-
- [3.1 提示词与交互层](#3.1 提示词与交互层)
- [3.2 模型与参数层](#3.2 模型与参数层)
- [3.3 模型优化与训练层](#3.3 模型优化与训练层)
- [3.4 检索与知识层](#3.4 检索与知识层)
- [3.5 Agent 与编排层](#3.5 Agent 与编排层)
- [3.6 工具与协议层](#3.6 工具与协议层)
- [3.7 技能与产品层](#3.7 技能与产品层)
- [3.8 安全与治理层](#3.8 安全与治理层)
- [4. 学习路线](#4. 学习路线)
-
- [4.1 第一阶段:基础认知](#4.1 第一阶段:基础认知)
- [4.2 第二阶段:知识增强](#4.2 第二阶段:知识增强)
- [4.3 第三阶段:智能编排](#4.3 第三阶段:智能编排)
- [4.4 第四阶段:开发实践](#4.4 第四阶段:开发实践)
-
-
1. 为什么学习AI使用方法?
过去十年间,AI 技术经历了从实验室到产业界、再到普通用户桌面的快速迁移。以 ChatGPT 为代表的大语言模型在 2023 年引爆了全民关注,而随后涌现的 Midjourney、Copilot、Sora 等工具进一步将 AI 的能力边界拓展到图像生成、代码辅助和视频创作等领域。AI 已不再是科研论文中的抽象概念,而是触手可及的生产力工具,这意味着"会不会用 AI"正在成为一种新的基础素养。
从职业发展的角度看,AI 正在重塑几乎所有行业的工作流程。程序员借助 GitHub Copilot 提升编码效率,设计师通过 Stable Diffusion 快速产出概念稿,运营人员利用大模型批量生成营销文案------这些场景的共同特点是:AI 并非替代人类,而是作为"倍增器"放大个体的产出能力。掌握 AI 工具的人与不掌握的人之间,效率差距可能达到数倍甚至数十倍。
更深层的原因在于,AI 的使用本身具有显著的"提示工程"门槛。同样的模型,不同的提问方式会导致截然不同的输出质量。学习 AI 不仅仅是学会点击某个按钮,更核心的是理解模型的能力边界、掌握结构化提示的技巧、建立对生成结果的批判性判断力。这是一套需要刻意练习才能形成的思维方式,而非简单的工具操作。
此外,AI 技术的迭代速度极快,模型能力每隔几个月就会发生质的飞跃。今天的局限可能在下一个版本中被突破,而新的能力又会催生出全新的应用场景。如果不持续学习,就很容易陷入"用旧方法解决新问题"的惯性陷阱。保持对 AI 前沿动态的跟踪和实践,才能在技术浪潮中持续捕获红利。
从社会层面来说,AI 素养的普及也关乎信息安全与认知防线。深度伪造、AI 生成的虚假信息正在侵蚀公共信任,只有理解 AI 的生成机制,才能更好地识别和防范这些风险。学习 AI 不只是为了"用好它",同样也是为了"不被它误导"。在 AI 渗透日常生活的大趋势下,主动学习远比被动适应更为明智。
2. 核心概念介绍
人工智能(AI)、机器学习(ML)与深度学习(DL)三者之间是逐层包含的关系。
AI是最广义的概念,泛指让机器模拟人类智能的技术体系;ML是实现AI的主流路径,其核心思想是让模型从数据中自动学习规律而非依赖显式编程;DL则是ML的一个子集,通过多层神经网络来提取高层次抽象特征,在图像、语音、文本等领域表现尤为突出。
数据是驱动一切 ML 模型的燃料。按形态可分为结构化数据(如数据库表格)和非结构化数据(如图片、文本、音频)。原始数据往往不能直接输入模型,需要通过特征工程将其转化为模型可理解的数值表示,例如对类别变量做 One-Hot 编码、对文本做 TF-IDF 统计等。特征质量的高低直接决定了模型效果的上限。
根据训练方式的不同,ML 可划分为三大范式:
- 监督学习利用带标签的数据进行训练,适用于分类与回归任务;
- 无监督学习在无标签数据上挖掘隐藏结构,常见于聚类和降维场景;
- 强化学习则让智能体在与环境的交互中通过奖励信号不断优化策略,典型应用包括游戏 AI 和机器人控制。
神经网络是深度学习的基石,其基本单元是模拟生物神经元的感知器。在此基础上衍生出多种经典架构:CNN(卷积神经网络)擅长捕捉空间特征,广泛用于图像任务;RNN/LSTM 适合处理序列数据;Transformer 架构凭借自注意力机制彻底改变了 NLP 领域的格局,并逐步向多模态方向扩展。
自然语言处理(NLP)关注的是让机器理解和生成人类语言。其技术栈从早期的分词、词袋模型,演进到 Word2Vec 词嵌入,再到如今基于 Transformer 的预训练语言模型(如 GPT、BERT)。落地场景涵盖聊天机器人、机器翻译、文本生成以及语义搜索引擎等。
计算机视觉(CV)致力于让机器从图像和视频中提取信息。核心任务包括图像分类、目标检测与图像生成,分别对应 ResNet、YOLO、Diffusion Model 等代表性模型。这些技术已深入自动驾驶、人脸识别和增强现实等实际产品中,是当前商业化程度最高的 AI 分支之一。
模型训练完成后需要通过合理的指标进行评估。分类问题常用准确率、精确率、召回率和 F1-Score,并借助混淆矩阵直观呈现各类别的预测分布;回归问题则通常采用 MAE、MSE 和 R² 等指标衡量预测值与真实值的偏差程度。选择合适的评估指标与业务目标强相关。
随着 AI 系统渗透到社会各层面,伦理问题日益凸显。训练数据中的偏差可能导致模型输出带有歧视性结论;深度模型的"黑箱"特性使得决策过程难以解释,在医疗、司法等高风险场景中尤为棘手;此外,大规模数据采集引发的隐私风险也亟需通过差分隐私、联邦学习等技术手段加以缓解。
3. AI核心技能
检索增强生成(RAG)是当前大模型落地的关键技术之一。其核心思路是在模型生成回答之前,先从外部知识库中检索相关文档片段,再将检索结果作为上下文注入 Prompt,从而缓解大模型的"幻觉"问题并实现知识的实时更新。LangChain 和 LlamaIndex 是构建 RAG 管线的两大主流框架,前者侧重通用编排能力,提供灵活的链式调用接口;后者专注于数据索引与检索优化,在文档问答场景中开箱即用。
AI Agent(智能代理)代表了大模型应用的下一个演进方向。与传统的单轮问答不同,代理能够自主规划任务、调用外部工具、在多步推理中持续迭代直至达成目标。早期探索如 AutoGPT、BabyAGI 验证了"大模型驱动自主循环"的可行性,而 LangGraph agents 和 CrewAI 等框架则将代理开发推向了工程化阶段。构建一个可靠的代理系统,需要掌握以下几项核心能力:
- 决策循环理解:代理通常遵循"感知→规划→执行→观察"的循环架构,理解这一闭环是调试和优化代理行为的前提。
- 工具调用与插件编排:代理的能力边界取决于它可以调用的工具集,包括搜索引擎、代码解释器、数据库查询等。
- 记忆管理:短期记忆用于维持当前任务上下文,长期记忆则通过向量数据库等方式实现持久化,两者协同决定了代理在复杂任务中的连贯性。
- Prompt 链与任务拆解 :将复杂目标分解为可执行的子任务,并通过
Prompt链串联每个步骤的输入输出,是代理可靠运行的关键设计模式。
代理架构突破了单轮对话的天花板,正在成为自动化工作流、深度研究和企业级 AI 应用的核心载体。
模型上下文协议(MCP)是 Anthropic 于 2024 年发布的开源标准,旨在为 AI 模型与外部数据源、工具之间建立统一的连接规范。可以将其类比为 AI 领域的"USB-C 接口"------无论底层模型是什么,只要工具侧实现了 MCP 协议,就可以即插即用地完成数据读取、API 调用等操作。这一标准大幅降低了代理系统的集成成本,推动了工具生态的标准化发展。
提示词工程(Prompt Engineering)是所有 AI 技能的基础。通过精心设计指令结构、提供少样本示例、设定角色与约束条件,用户可以显著提升模型输出的准确性和可控性。在开发侧,OpenCode 和 Claude Code 等终端编程工具将大模型能力直接嵌入开发者的命令行工作流,支持代码生成、调试、重构等操作,使 AI 辅助编程从 IDE 插件进一步延伸到更灵活的终端场景。这些技能点相互交织,共同构成了当下 AI 实践者的核心能力栈。
3.1 提示词与交互层
| 概念 | 英文 | 简要说明 | 典型场景/工具 |
|---|---|---|---|
| 提示词 | Prompt |
用户输入给模型的自然语言指令 | 所有大模型交互的基础 |
| 系统提示词 | System Prompt |
预设模型角色、行为边界的隐藏指令 | ChatGPT 自定义指令、API 调用 |
| 提示词工程 | Prompt Engineering |
通过设计提示结构优化模型输出质量的技术 | 少样本示例、角色设定、约束条件 |
| 提示词模板 | Prompt Template |
可复用的参数化提示词结构 | LangChain PromptTemplate |
| 思维链 | Chain of Thought (CoT) |
引导模型逐步推理而非直接输出答案 | 复杂数学题、逻辑推理任务 |
| 少样本/零样本 | Few-shot / Zero-shot |
在提示中提供示例(或不提供)引导输出格式 | 分类、格式化输出 |
| 结构化输出 | Structured Output |
约束模型按指定格式(如 JSON)返回结果 | JSON Mode、Function Calling |
3.2 模型与参数层
| 概念 | 英文 | 简要说明 | 典型场景/工具 |
|---|---|---|---|
| 令牌 | Token |
模型处理文本的最小单元 | 计费、上下文长度计算 |
| 上下文窗口 | Context Window |
模型单次可处理的最大 Token 数 | GPT-4o 128K、Claude 200K |
| 温度 | Temperature |
控制输出随机性的采样参数,越高越发散 | 创意写作高温,代码生成低温 |
| Top-p / Top-k | Nucleus / Top-k Sampling |
控制候选词概率分布的采样策略 | API 参数调优 |
| 流式输出 | Streaming |
模型逐 Token 返回结果而非等待完整生成 | 聊天界面实时显示 |
| 多模态 | Multimodal |
模型同时处理文本、图像、音频、视频等 | GPT-4o、Gemini |
| 幻觉 | Hallucination |
模型生成看似合理但事实错误的内容 | 所有生成式模型的固有风险 |
3.3 模型优化与训练层
| 概念 | 英文 | 简要说明 | 典型场景/工具 |
|---|---|---|---|
| 微调 | Fine-tuning |
在预训练模型基础上用特定数据继续训练 | 垂直领域模型定制 |
| 低秩适配 | LoRA / QLoRA |
通过低秩矩阵高效微调大模型的参数子集 | 消费级 GPU 上微调 LLaMA |
| 量化 | Quantization |
降低模型参数精度以减少显存占用和推理成本 | GGUF、GPTQ、AWQ |
| 蒸馏 | Distillation |
用大模型的输出训练小模型以迁移能力 | 边缘端部署、降本 |
| 对齐 | Alignment |
使模型输出符合人类价值观和意图 | RLHF、DPO、Constitutional AI |
| 人类反馈强化学习 | RLHF |
通过人类偏好标注训练奖励模型来优化生成 | ChatGPT 训练流程核心环节 |
| 嵌入 | Embedding |
将文本/图像映射为高维向量表示 | 语义搜索、RAG 检索 |
3.4 检索与知识层
| 概念 | 英文 | 简要说明 | 典型场景/工具 |
|---|---|---|---|
| 检索增强生成 | RAG |
检索外部知识注入上下文后再生成回答 | LlamaIndex、LangChain |
| 向量数据库 | Vector Database |
专门存储和检索向量嵌入的数据库 | Pinecone、Milvus、Chroma |
| 知识库 | Knowledge Base |
供模型检索的结构化/非结构化文档集合 | 企业内部文档问答系统 |
| 事实锚定 | Grounding |
将模型输出与可验证的外部信息源关联 | Google Grounding、引用标注 |
| 联网搜索 | Web Search |
模型实时调用搜索引擎获取最新信息 | ChatGPT Browse、Perplexity |
| 深度研究 | Deep Research |
代理自动多轮检索、整合并生成研究报告 | Gemini Deep Research、OpenAI Deep Research |
3.5 Agent 与编排层
| 概念 | 英文 | 简要说明 | 典型场景/工具 |
|---|---|---|---|
| 智能代理 | AI Agent |
能自主规划、决策、执行任务的 AI 系统 | AutoGPT、LangGraph Agents |
| 多代理 | Multi-Agent |
多个代理协作完成复杂任务 | CrewAI、AutoGen、MetaGPT |
| 推理与行动 | ReAct |
交替进行推理(Reason)和行动(Act)的代理范式 | LangChain ReAct Agent |
| 规划 | Planning |
代理将复杂目标拆解为子任务序列的能力 | 任务分解、执行计划生成 |
| 记忆 | Memory |
代理维护短期/长期上下文信息的机制 | 对话历史、向量化长期记忆 |
| 工作流 | Workflow |
预定义步骤的自动化执行流程 | Dify、Coze、n8n |
| 编排 | Orchestration |
协调模型、工具、数据源之间调用顺序的逻辑层 | LangChain、LangGraph |
| 链 | Chain |
将多个处理步骤串联的调用模式 | LangChain LCEL |
3.6 工具与协议层
| 概念 | 英文 | 简要说明 | 典型场景/工具 |
|---|---|---|---|
| 工具调用 | Tool Use/Tool Calling |
模型识别意图并调用外部函数或 API | Function Calling、Tool Use API |
| 函数调用 | Function Calling |
模型按 Schema 生成函数参数由程序执行 | OpenAI Function Calling |
| 插件 | Plugin |
为模型扩展特定能力的可插拔模块 | ChatGPT Plugins(已演进为 GPTs) |
| 模型上下文协议 | MCP |
Anthropic 发布的 AI 与工具连接的开源标准 |
类比"USB-C 接口",标准化工具集成 |
| 代理间协议 | A2A |
Google 提出的代理之间通信与协作的协议 |
跨平台多代理互操作 |
| 代码解释器 | Code Interpreter |
模型在沙箱中编写并执行代码 | ChatGPT Code Interpreter |
| 沙箱 | Sandbox |
隔离运行代码/工具的安全环境 | 代码执行、文件处理 |
3.7 技能与产品层
| 概念 | 英文 | 简要说明 | 典型场景/工具 |
|---|---|---|---|
| 技能 | Skills |
封装特定能力的可复用提示词或工具组合 | Copilot Skills、Coze 插件 |
| 自定义助手 | Custom GPT / GPTs |
用户自定义角色、知识和工具的专属 AI 助手 | OpenAI GPT Store |
| 画布 | Canvas / Artifacts |
模型输出可交互编辑的独立内容面板 | Claude Artifacts、ChatGPT Canvas |
| AI 编程助手 | AI Coding Assistant |
在 IDE 或终端中辅助代码生成与调试 | Copilot、Cursor、Claude Code |
| 终端编程工具 | CLI Coding Tool |
命令行环境下的 AI 编程交互工具 | OpenCode、Claude Code、Aider |
| 护栏 | Guardrails |
对模型输入输出进行安全过滤和格式校验的机制 | Guardrails AI、NeMo Guardrails |
3.8 安全与治理层
| 概念 | 英文 | 简要说明 | 典型场景/工具 |
|---|---|---|---|
| 越狱 | Jailbreak |
绕过模型安全限制使其输出违规内容的攻击手法 | 提示注入、角色扮演绕过 |
| 提示注入 | Prompt Injection |
通过恶意输入劫持模型行为的攻击方式 | 间接注入、指令覆盖 |
| 红队测试 | Red Teaming |
主动探测模型安全漏洞的对抗性评估 | 模型发布前的安全审计 |
| 可解释性 | Explainability / XAI |
让模型决策过程可被人类理解的技术 | SHAP、LIME、注意力可视化 |
| 数据偏差 | Data Bias |
训练数据中的偏见导致模型输出歧视性结果 | 公平性审计、去偏训练 |
4. 学习路线
在当前阶段,优先学习应用能力,包括提示词、Token、上下文窗口、幻觉、知识库、联网搜索、代理、工作流、工具、函数调用、模型上下文协议、技能、编程助手、终端工具等方面。
以下学习路线按"认知→增强→编排→实践"四个阶段递进展开,每个阶段的知识都是下一阶段的前置依赖。
基础认知
知识增强
智能编排
开发实践
提示词 / Token / 上下文窗口 / 幻觉
知识库 / 联网搜索
代理 / 工作流 / 工具 / 函数调用 / MCP
技能 / 编程助手 / 终端工具
4.1 第一阶段:基础认知
这一阶段的核心目标是建立与大模型交互的正确心智模型。建议先通读一遍 OpenAI 官方文档,再结合提示词工程指南反复练习,重点体会 Token 计量与上下文窗口对实际对话质量的影响。
| 知识点 | 学习建议 | 参考资料 |
|---|---|---|
| 提示词 | 从零样本、少样本、思维链三种范式入手,在 ChatGPT 或 Claude 中反复对比不同写法的输出差异 |
Prompt Engineering Guide |
| Token | 使用 OpenAI 的 Tokenizer 工具实际拆解中英文文本,观察分词结果和计数规律 |
OpenAI Tokenizer |
| 上下文窗口 | 尝试在长对话中观察模型"遗忘"现象,理解滑动窗口截断机制 | OpenAI Models 文档 |
| 幻觉 | 收集真实幻觉案例进行归因分析,了解常见缓解策略如引用溯源、置信度标注等 | Survey of Hallucination in LLMs |
关键词解释:
-
Prompt(提示词)是与大模型交互的核心手段,掌握角色设定、少样本示例、思维链等技巧是一切应用的起点。 -
Token是模型处理文本的最小单元,中文一个汉字通常被切分为 1~2 个Token,它直接决定了调用成本和输入上限。 -
Context Window(上下文窗口)定义了模型单次对话能"看到"的Token总量,超出窗口的信息会被截断,因此理解其边界对长文本任务至关重要。 -
Hallucination(幻觉)指模型生成看似合理但事实错误的内容,认识幻觉的成因才能在后续阶段有针对性地缓解它。
4.2 第二阶段:知识增强
知识库和联网搜索是当前落地最广泛的增强手段。建议先用 Dify 或 FastGPT 等平台快速搭建一个端到端的 RAG 应用,获得直观体感后再深入 Embedding、向量检索和 Chunk 策略等底层细节。
| 知识点 | 学习建议 | 参考资料 |
|---|---|---|
| 知识库(RAG) | 选一份自己熟悉的文档作为语料,走通"切片→向量化→检索→生成"全流程,重点关注切片粒度对召回质量的影响 | LangChain RAG 教程、Dify 官方文档 |
| 联网搜索 | 体验 Perplexity、ChatGPT Browse 等产品的搜索增强效果,再通过 API 集成 Tavily 等搜索工具自行实现 |
Tavily API 文档 |
关键词解释:
-
知识库 通常基于
RAG(检索增强生成)架构实现:先将私有文档切片并通过Embedding模型向量化,存入向量数据库,查询时检索最相关片段注入上下文,从而让模型回答"它未曾训练过"的领域问题,是抑制幻觉最直接的手段。 -
联网搜索则是另一条增强路径,它允许模型在推理前实时检索互联网信息,解决知识时效性问题,二者经常组合使用以兼顾私域深度和公域广度。
4.3 第三阶段:智能编排
这一阶段概念密度最高,建议以 Dify 或 Coze 作为可视化实验平台,先拖拽搭建一个包含工具调用的 Agent,再阅读源码理解底层的 Function Calling 协议。MCP 作为新兴标准,重点关注其"统一工具接入"的设计思想。
| 知识点 | 学习建议 | 参考资料 |
|---|---|---|
| 代理(Agent) | 从 ReAct 范式入手,理解"推理→行动→观察"循环,再扩展到多 Agent 协作场景 |
LangChain Agents 文档 |
| 工作流 | 在 Dify 或 Coze 中搭建一个包含条件分支和循环的工作流,对比与 Agent 自主决策的差异 |
Dify Workflow 文档 |
| 工具 / 函数调用 | 手动编写一个天气查询 Function,通过 OpenAI API 的 tools 参数完成端到端调用 |
OpenAI Function Calling 指南 |
| MCP | 阅读协议规范,理解 Resource、Tool、Prompt 三种原语,尝试用官方 SDK 实现一个简单的 MCP Server |
MCP 官方文档 |
关键词解释:
-
Agent(代理)是具备自主规划与工具调用能力的智能体,能将复杂任务拆解为多步执行。 -
Workflow(工作流)则以显式的有向图定义执行流程,确定性更强,适合对可控性要求高的场景。二者的行动能力都依赖于Tool(工具)和Function Calling(函数调用)------模型输出结构化的函数名与参数,由宿主程序执行真实操作后将结果回传。 -
MCP(模型上下文协议)是 Anthropic 提出的开放标准,它为模型与外部工具/数据源之间定义了统一的通信协议,使不同工具的接入像 USB 一样即插即用,正在成为Agent生态的重要基础设施。
4.4 第四阶段:开发实践
最后一个阶段重在"用起来"。建议将 Cursor 或 Claude Code 融入日常开发流程,从代码补全、单元测试生成等小任务开始,逐步过渡到用自然语言驱动完整功能开发,在实践中串联前三阶段的所有知识。
| 知识点 | 学习建议 | 参考资料 |
|---|---|---|
| 技能封装 | 在 Coze 或 Dify 中将一组工具和提示词封装为可复用的技能插件,理解技能的输入输出契约设计 |
Coze 技能文档 |
| 编程助手 | 以 Cursor 为主力工具,重点掌握 Tab 补全、Cmd+K 编辑和 Chat 三种交互模式的适用场景 |
Cursor 官方文档 |
| 终端工具 | 安装 Claude Code,从文件操作和脚本执行等基础任务入手,逐步尝试让它独立完成项目级别的代码重构 |
Claude Code 文档 |
关键词解释:
-
Skill(技能)是对一组提示词、工具调用和工作流的封装,可以理解为Agent的"可复用能力模块"。 -
编程助手如
Cursor、GitHub Copilot将上述能力深度集成进 IDE,实现代码补全、跨文件重构和自然语言驱动开发。 -
终端工具如
Claude Code则将Agent能力延伸到命令行环境,可直接操作文件系统、执行脚本,是当前 AI 辅助开发的前沿方向。建议在此阶段选择一个实际项目,串联前三阶段知识进行端到端实践。

Once Day
也信美人终作土,不堪幽梦太匆匆......
如果这篇文章为您带来了帮助或启发,不妨点个赞👍和关注!
(。◕‿◕。)感谢您的阅读与支持~~~