AI实践(0)学习路线

AI实践(0)学习路线

Author: Once Day Date: 2026年2月28日

一位热衷于Linux学习和开发的菜鸟，试图谱写一场冒险之旅，也许终点只是一场白日梦...

漫漫长路，有人对你微笑过嘛...

全系列文章可参考专栏: AI实践成长_Once-Day的博客-CSDN博客

参考文章:

文档 -- Claude 中文 - Claude AI 开发技术社区

从零到专家：普通人学习人工智能的完整指南 - 软件职业规划 - 博客园

小白变大神！2025年人工智能（AI）初学者学习路线图，轻松从入门到高手！ - 知乎

OpenAI for developers

提示工程指南：生成式人工智能终极指南 --- Prompt Engineering Guide: The Ultimate Guide to Generative AI

OpenAI 文档介绍 | OpenAI 官方帮助文档中文版

文本补全（Text completion） | OpenAI 官方帮助文档中文版

Home - Docs by LangChain

ReAct范式全流程详解-CSDN博客

我用 OpenCode 跑 AI 编程工作流------桌面批注、Web UI、手机监工

用了 9 个月 AI 编程后，我只推荐这一套工作流------别让 AI 直接写代码

文章目录

AI实践(0)学习路线
- - - [1. 为什么学习AI使用方法？](#1. 为什么学习AI使用方法？)
    - [2. 核心概念介绍](#2. 核心概念介绍)
    - [3. AI核心技能](#3. AI核心技能)
    - - [3.1 提示词与交互层](#3.1 提示词与交互层)
      - [3.2 模型与参数层](#3.2 模型与参数层)
      - [3.3 模型优化与训练层](#3.3 模型优化与训练层)
      - [3.4 检索与知识层](#3.4 检索与知识层)
      - [3.5 Agent 与编排层](#3.5 Agent 与编排层)
      - [3.6 工具与协议层](#3.6 工具与协议层)
      - [3.7 技能与产品层](#3.7 技能与产品层)
      - [3.8 安全与治理层](#3.8 安全与治理层)
    - [4. 学习路线](#4. 学习路线)
    - - [4.1 第一阶段：基础认知](#4.1 第一阶段：基础认知)
      - [4.2 第二阶段：知识增强](#4.2 第二阶段：知识增强)
      - [4.3 第三阶段：智能编排](#4.3 第三阶段：智能编排)
      - [4.4 第四阶段：开发实践](#4.4 第四阶段：开发实践)

1. 为什么学习AI使用方法？

过去十年间，AI 技术经历了从实验室到产业界、再到普通用户桌面的快速迁移。以 ChatGPT 为代表的大语言模型在 2023 年引爆了全民关注，而随后涌现的 Midjourney、Copilot、Sora 等工具进一步将 AI 的能力边界拓展到图像生成、代码辅助和视频创作等领域。AI 已不再是科研论文中的抽象概念，而是触手可及的生产力工具，这意味着"会不会用 AI"正在成为一种新的基础素养。

从职业发展的角度看，AI 正在重塑几乎所有行业的工作流程。程序员借助 GitHub Copilot 提升编码效率，设计师通过 Stable Diffusion 快速产出概念稿，运营人员利用大模型批量生成营销文案------这些场景的共同特点是：AI 并非替代人类，而是作为"倍增器"放大个体的产出能力。掌握 AI 工具的人与不掌握的人之间，效率差距可能达到数倍甚至数十倍。

更深层的原因在于，AI 的使用本身具有显著的"提示工程"门槛。同样的模型，不同的提问方式会导致截然不同的输出质量。学习 AI 不仅仅是学会点击某个按钮，更核心的是理解模型的能力边界、掌握结构化提示的技巧、建立对生成结果的批判性判断力。这是一套需要刻意练习才能形成的思维方式，而非简单的工具操作。

此外，AI 技术的迭代速度极快，模型能力每隔几个月就会发生质的飞跃。今天的局限可能在下一个版本中被突破，而新的能力又会催生出全新的应用场景。如果不持续学习，就很容易陷入"用旧方法解决新问题"的惯性陷阱。保持对 AI 前沿动态的跟踪和实践，才能在技术浪潮中持续捕获红利。

从社会层面来说，AI 素养的普及也关乎信息安全与认知防线。深度伪造、AI 生成的虚假信息正在侵蚀公共信任，只有理解 AI 的生成机制，才能更好地识别和防范这些风险。学习 AI 不只是为了"用好它"，同样也是为了"不被它误导"。在 AI 渗透日常生活的大趋势下，主动学习远比被动适应更为明智。

2. 核心概念介绍

人工智能（AI）、机器学习（ML）与深度学习（DL）三者之间是逐层包含的关系。

AI 是最广义的概念，泛指让机器模拟人类智能的技术体系；
ML 是实现 AI 的主流路径，其核心思想是让模型从数据中自动学习规律而非依赖显式编程；
DL 则是 ML 的一个子集，通过多层神经网络来提取高层次抽象特征，在图像、语音、文本等领域表现尤为突出。

数据是驱动一切 ML 模型的燃料。按形态可分为结构化数据（如数据库表格）和非结构化数据（如图片、文本、音频）。原始数据往往不能直接输入模型，需要通过特征工程将其转化为模型可理解的数值表示，例如对类别变量做 One-Hot 编码、对文本做 TF-IDF 统计等。特征质量的高低直接决定了模型效果的上限。

根据训练方式的不同，ML 可划分为三大范式：

监督学习利用带标签的数据进行训练，适用于分类与回归任务；
无监督学习在无标签数据上挖掘隐藏结构，常见于聚类和降维场景；
强化学习则让智能体在与环境的交互中通过奖励信号不断优化策略，典型应用包括游戏 AI 和机器人控制。

神经网络是深度学习的基石，其基本单元是模拟生物神经元的感知器。在此基础上衍生出多种经典架构：CNN（卷积神经网络）擅长捕捉空间特征，广泛用于图像任务；RNN/LSTM 适合处理序列数据；Transformer 架构凭借自注意力机制彻底改变了 NLP 领域的格局，并逐步向多模态方向扩展。

自然语言处理（NLP）关注的是让机器理解和生成人类语言。其技术栈从早期的分词、词袋模型，演进到 Word2Vec 词嵌入，再到如今基于 Transformer 的预训练语言模型（如 GPT、BERT）。落地场景涵盖聊天机器人、机器翻译、文本生成以及语义搜索引擎等。

计算机视觉（CV）致力于让机器从图像和视频中提取信息。核心任务包括图像分类、目标检测与图像生成，分别对应 ResNet、YOLO、Diffusion Model 等代表性模型。这些技术已深入自动驾驶、人脸识别和增强现实等实际产品中，是当前商业化程度最高的 AI 分支之一。

模型训练完成后需要通过合理的指标进行评估。分类问题常用准确率、精确率、召回率和 F1-Score，并借助混淆矩阵直观呈现各类别的预测分布；回归问题则通常采用 MAE、MSE 和 R² 等指标衡量预测值与真实值的偏差程度。选择合适的评估指标与业务目标强相关。

随着 AI 系统渗透到社会各层面，伦理问题日益凸显。训练数据中的偏差可能导致模型输出带有歧视性结论；深度模型的"黑箱"特性使得决策过程难以解释，在医疗、司法等高风险场景中尤为棘手；此外，大规模数据采集引发的隐私风险也亟需通过差分隐私、联邦学习等技术手段加以缓解。

3. AI核心技能

检索增强生成（RAG）是当前大模型落地的关键技术之一。其核心思路是在模型生成回答之前，先从外部知识库中检索相关文档片段，再将检索结果作为上下文注入 Prompt，从而缓解大模型的"幻觉"问题并实现知识的实时更新。LangChain 和 LlamaIndex 是构建 RAG 管线的两大主流框架，前者侧重通用编排能力，提供灵活的链式调用接口；后者专注于数据索引与检索优化，在文档问答场景中开箱即用。

AI Agent（智能代理）代表了大模型应用的下一个演进方向。与传统的单轮问答不同，代理能够自主规划任务、调用外部工具、在多步推理中持续迭代直至达成目标。早期探索如 AutoGPT、BabyAGI 验证了"大模型驱动自主循环"的可行性，而 LangGraph agents 和 CrewAI 等框架则将代理开发推向了工程化阶段。构建一个可靠的代理系统，需要掌握以下几项核心能力：

决策循环理解：代理通常遵循"感知→规划→执行→观察"的循环架构，理解这一闭环是调试和优化代理行为的前提。
工具调用与插件编排：代理的能力边界取决于它可以调用的工具集，包括搜索引擎、代码解释器、数据库查询等。
记忆管理：短期记忆用于维持当前任务上下文，长期记忆则通过向量数据库等方式实现持久化，两者协同决定了代理在复杂任务中的连贯性。
Prompt 链与任务拆解 ：将复杂目标分解为可执行的子任务，并通过 Prompt 链串联每个步骤的输入输出，是代理可靠运行的关键设计模式。

代理架构突破了单轮对话的天花板，正在成为自动化工作流、深度研究和企业级 AI 应用的核心载体。

模型上下文协议（MCP）是 Anthropic 于 2024 年发布的开源标准，旨在为 AI 模型与外部数据源、工具之间建立统一的连接规范。可以将其类比为 AI 领域的"USB-C 接口"------无论底层模型是什么，只要工具侧实现了 MCP 协议，就可以即插即用地完成数据读取、API 调用等操作。这一标准大幅降低了代理系统的集成成本，推动了工具生态的标准化发展。

提示词工程（Prompt Engineering）是所有 AI 技能的基础。通过精心设计指令结构、提供少样本示例、设定角色与约束条件，用户可以显著提升模型输出的准确性和可控性。在开发侧，OpenCode 和 Claude Code 等终端编程工具将大模型能力直接嵌入开发者的命令行工作流，支持代码生成、调试、重构等操作，使 AI 辅助编程从 IDE 插件进一步延伸到更灵活的终端场景。这些技能点相互交织，共同构成了当下 AI 实践者的核心能力栈。

3.1 提示词与交互层

概念	英文	简要说明	典型场景/工具
提示词	`Prompt`	用户输入给模型的自然语言指令	所有大模型交互的基础
系统提示词	`System Prompt`	预设模型角色、行为边界的隐藏指令	`ChatGPT` 自定义指令、API 调用
提示词工程	`Prompt Engineering`	通过设计提示结构优化模型输出质量的技术	少样本示例、角色设定、约束条件
提示词模板	`Prompt Template`	可复用的参数化提示词结构	`LangChain PromptTemplate`
思维链	`Chain of Thought (CoT)`	引导模型逐步推理而非直接输出答案	复杂数学题、逻辑推理任务
少样本/零样本	`Few-shot / Zero-shot`	在提示中提供示例（或不提供）引导输出格式	分类、格式化输出
结构化输出	`Structured Output`	约束模型按指定格式（如 JSON）返回结果	`JSON Mode`、`Function Calling`

3.2 模型与参数层

概念	英文	简要说明	典型场景/工具
令牌	`Token`	模型处理文本的最小单元	计费、上下文长度计算
上下文窗口	`Context Window`	模型单次可处理的最大 Token 数	`GPT-4o` 128K、`Claude` 200K
温度	`Temperature`	控制输出随机性的采样参数，越高越发散	创意写作高温，代码生成低温
Top-p / Top-k	`Nucleus / Top-k Sampling`	控制候选词概率分布的采样策略	API 参数调优
流式输出	`Streaming`	模型逐 Token 返回结果而非等待完整生成	聊天界面实时显示
多模态	`Multimodal`	模型同时处理文本、图像、音频、视频等	`GPT-4o`、`Gemini`
幻觉	`Hallucination`	模型生成看似合理但事实错误的内容	所有生成式模型的固有风险

3.3 模型优化与训练层

概念	英文	简要说明	典型场景/工具
微调	`Fine-tuning`	在预训练模型基础上用特定数据继续训练	垂直领域模型定制
低秩适配	`LoRA / QLoRA`	通过低秩矩阵高效微调大模型的参数子集	消费级 GPU 上微调 `LLaMA`
量化	`Quantization`	降低模型参数精度以减少显存占用和推理成本	`GGUF`、`GPTQ`、`AWQ`
蒸馏	`Distillation`	用大模型的输出训练小模型以迁移能力	边缘端部署、降本
对齐	`Alignment`	使模型输出符合人类价值观和意图	`RLHF`、`DPO`、`Constitutional AI`
人类反馈强化学习	`RLHF`	通过人类偏好标注训练奖励模型来优化生成	`ChatGPT` 训练流程核心环节
嵌入	`Embedding`	将文本/图像映射为高维向量表示	语义搜索、`RAG` 检索

3.4 检索与知识层

概念	英文	简要说明	典型场景/工具
检索增强生成	`RAG`	检索外部知识注入上下文后再生成回答	`LlamaIndex`、`LangChain`
向量数据库	`Vector Database`	专门存储和检索向量嵌入的数据库	`Pinecone`、`Milvus`、`Chroma`
知识库	`Knowledge Base`	供模型检索的结构化/非结构化文档集合	企业内部文档问答系统
事实锚定	`Grounding`	将模型输出与可验证的外部信息源关联	`Google Grounding`、引用标注
联网搜索	`Web Search`	模型实时调用搜索引擎获取最新信息	`ChatGPT Browse`、`Perplexity`
深度研究	`Deep Research`	代理自动多轮检索、整合并生成研究报告	`Gemini Deep Research`、`OpenAI Deep Research`

3.5 Agent 与编排层

概念	英文	简要说明	典型场景/工具
智能代理	`AI Agent`	能自主规划、决策、执行任务的 AI 系统	`AutoGPT`、`LangGraph Agents`
多代理	`Multi-Agent`	多个代理协作完成复杂任务	`CrewAI`、`AutoGen`、`MetaGPT`
推理与行动	`ReAct`	交替进行推理（Reason）和行动（Act）的代理范式	`LangChain ReAct Agent`
规划	`Planning`	代理将复杂目标拆解为子任务序列的能力	任务分解、执行计划生成
记忆	`Memory`	代理维护短期/长期上下文信息的机制	对话历史、向量化长期记忆
工作流	`Workflow`	预定义步骤的自动化执行流程	`Dify`、`Coze`、`n8n`
编排	`Orchestration`	协调模型、工具、数据源之间调用顺序的逻辑层	`LangChain`、`LangGraph`
链	`Chain`	将多个处理步骤串联的调用模式	`LangChain LCEL`

3.6 工具与协议层

概念	英文	简要说明	典型场景/工具
工具调用	`Tool Use/Tool Calling`	模型识别意图并调用外部函数或 API	`Function Calling`、`Tool Use API`
函数调用	`Function Calling`	模型按 Schema 生成函数参数由程序执行	`OpenAI Function Calling`
插件	`Plugin`	为模型扩展特定能力的可插拔模块	`ChatGPT Plugins`（已演进为 `GPTs`）
模型上下文协议	`MCP`	`Anthropic` 发布的 AI 与工具连接的开源标准	类比"USB-C 接口"，标准化工具集成
代理间协议	`A2A`	`Google` 提出的代理之间通信与协作的协议	跨平台多代理互操作
代码解释器	`Code Interpreter`	模型在沙箱中编写并执行代码	`ChatGPT Code Interpreter`
沙箱	`Sandbox`	隔离运行代码/工具的安全环境	代码执行、文件处理

3.7 技能与产品层

概念	英文	简要说明	典型场景/工具
技能	`Skills`	封装特定能力的可复用提示词或工具组合	`Copilot Skills`、`Coze` 插件
自定义助手	`Custom GPT / GPTs`	用户自定义角色、知识和工具的专属 AI 助手	`OpenAI GPT Store`
画布	`Canvas / Artifacts`	模型输出可交互编辑的独立内容面板	`Claude Artifacts`、`ChatGPT Canvas`
AI 编程助手	`AI Coding Assistant`	在 IDE 或终端中辅助代码生成与调试	`Copilot`、`Cursor`、`Claude Code`
终端编程工具	`CLI Coding Tool`	命令行环境下的 AI 编程交互工具	`OpenCode`、`Claude Code`、`Aider`
护栏	`Guardrails`	对模型输入输出进行安全过滤和格式校验的机制	`Guardrails AI`、`NeMo Guardrails`

3.8 安全与治理层

概念	英文	简要说明	典型场景/工具
越狱	`Jailbreak`	绕过模型安全限制使其输出违规内容的攻击手法	提示注入、角色扮演绕过
提示注入	`Prompt Injection`	通过恶意输入劫持模型行为的攻击方式	间接注入、指令覆盖
红队测试	`Red Teaming`	主动探测模型安全漏洞的对抗性评估	模型发布前的安全审计
可解释性	`Explainability / XAI`	让模型决策过程可被人类理解的技术	`SHAP`、`LIME`、注意力可视化
数据偏差	`Data Bias`	训练数据中的偏见导致模型输出歧视性结果	公平性审计、去偏训练

4. 学习路线

在当前阶段，优先学习应用能力，包括提示词、Token、上下文窗口、幻觉、知识库、联网搜索、代理、工作流、工具、函数调用、模型上下文协议、技能、编程助手、终端工具等方面。

以下学习路线按"认知→增强→编排→实践"四个阶段递进展开，每个阶段的知识都是下一阶段的前置依赖。
基础认知
知识增强
智能编排
开发实践
提示词 / Token / 上下文窗口 / 幻觉
知识库 / 联网搜索
代理 / 工作流 / 工具 / 函数调用 / MCP
技能 / 编程助手 / 终端工具

4.1 第一阶段：基础认知

这一阶段的核心目标是建立与大模型交互的正确心智模型。建议先通读一遍 OpenAI 官方文档，再结合提示词工程指南反复练习，重点体会 Token 计量与上下文窗口对实际对话质量的影响。

知识点	学习建议	参考资料
提示词	从零样本、少样本、思维链三种范式入手，在 `ChatGPT` 或 `Claude` 中反复对比不同写法的输出差异	Prompt Engineering Guide
Token	使用 OpenAI 的 `Tokenizer` 工具实际拆解中英文文本，观察分词结果和计数规律	OpenAI Tokenizer
上下文窗口	尝试在长对话中观察模型"遗忘"现象，理解滑动窗口截断机制	OpenAI Models 文档
幻觉	收集真实幻觉案例进行归因分析，了解常见缓解策略如引用溯源、置信度标注等	Survey of Hallucination in LLMs

关键词解释：

Prompt（提示词）是与大模型交互的核心手段，掌握角色设定、少样本示例、思维链等技巧是一切应用的起点。
Token 是模型处理文本的最小单元，中文一个汉字通常被切分为 1～2 个 Token，它直接决定了调用成本和输入上限。
Context Window（上下文窗口）定义了模型单次对话能"看到"的 Token 总量，超出窗口的信息会被截断，因此理解其边界对长文本任务至关重要。
Hallucination（幻觉）指模型生成看似合理但事实错误的内容，认识幻觉的成因才能在后续阶段有针对性地缓解它。

4.2 第二阶段：知识增强

知识库和联网搜索是当前落地最广泛的增强手段。建议先用 Dify 或 FastGPT 等平台快速搭建一个端到端的 RAG 应用，获得直观体感后再深入 Embedding、向量检索和 Chunk 策略等底层细节。

知识点	学习建议	参考资料
知识库（RAG）	选一份自己熟悉的文档作为语料，走通"切片→向量化→检索→生成"全流程，重点关注切片粒度对召回质量的影响	LangChain RAG 教程、Dify 官方文档
联网搜索	体验 `Perplexity`、`ChatGPT Browse` 等产品的搜索增强效果，再通过 API 集成 `Tavily` 等搜索工具自行实现	Tavily API 文档

关键词解释：

知识库 通常基于 RAG（检索增强生成）架构实现：先将私有文档切片并通过 Embedding 模型向量化，存入向量数据库，查询时检索最相关片段注入上下文，从而让模型回答"它未曾训练过"的领域问题，是抑制幻觉最直接的手段。
联网搜索则是另一条增强路径，它允许模型在推理前实时检索互联网信息，解决知识时效性问题，二者经常组合使用以兼顾私域深度和公域广度。

4.3 第三阶段：智能编排

这一阶段概念密度最高，建议以 Dify 或 Coze 作为可视化实验平台，先拖拽搭建一个包含工具调用的 Agent，再阅读源码理解底层的 Function Calling 协议。MCP 作为新兴标准，重点关注其"统一工具接入"的设计思想。

知识点	学习建议	参考资料
代理（Agent）	从 `ReAct` 范式入手，理解"推理→行动→观察"循环，再扩展到多 Agent 协作场景	LangChain Agents 文档
工作流	在 `Dify` 或 `Coze` 中搭建一个包含条件分支和循环的工作流，对比与 Agent 自主决策的差异	Dify Workflow 文档
工具 / 函数调用	手动编写一个天气查询 `Function`，通过 OpenAI API 的 `tools` 参数完成端到端调用	OpenAI Function Calling 指南
MCP	阅读协议规范，理解 `Resource`、`Tool`、`Prompt` 三种原语，尝试用官方 SDK 实现一个简单的 MCP Server	MCP 官方文档

关键词解释：

Agent（代理）是具备自主规划与工具调用能力的智能体，能将复杂任务拆解为多步执行。
Workflow（工作流）则以显式的有向图定义执行流程，确定性更强，适合对可控性要求高的场景。二者的行动能力都依赖于Tool（工具）和 Function Calling（函数调用）------模型输出结构化的函数名与参数，由宿主程序执行真实操作后将结果回传。
MCP（模型上下文协议）是 Anthropic 提出的开放标准，它为模型与外部工具/数据源之间定义了统一的通信协议，使不同工具的接入像 USB 一样即插即用，正在成为 Agent 生态的重要基础设施。

4.4 第四阶段：开发实践

最后一个阶段重在"用起来"。建议将 Cursor 或 Claude Code 融入日常开发流程，从代码补全、单元测试生成等小任务开始，逐步过渡到用自然语言驱动完整功能开发，在实践中串联前三阶段的所有知识。

知识点	学习建议	参考资料
技能封装	在 `Coze` 或 `Dify` 中将一组工具和提示词封装为可复用的技能插件，理解技能的输入输出契约设计	Coze 技能文档
编程助手	以 `Cursor` 为主力工具，重点掌握 `Tab` 补全、`Cmd+K` 编辑和 `Chat` 三种交互模式的适用场景	Cursor 官方文档
终端工具	安装 `Claude Code`，从文件操作和脚本执行等基础任务入手，逐步尝试让它独立完成项目级别的代码重构	Claude Code 文档

关键词解释：

Skill（技能）是对一组提示词、工具调用和工作流的封装，可以理解为 Agent 的"可复用能力模块"。
编程助手如 Cursor、GitHub Copilot 将上述能力深度集成进 IDE，实现代码补全、跨文件重构和自然语言驱动开发。
终端工具如 Claude Code 则将 Agent 能力延伸到命令行环境，可直接操作文件系统、执行脚本，是当前 AI 辅助开发的前沿方向。建议在此阶段选择一个实际项目，串联前三阶段知识进行端到端实践。

Once Day

也信美人终作土，不堪幽梦太匆匆......
如果这篇文章为您带来了帮助或启发，不妨点个赞👍和关注！
(｡◕‿◕｡)感谢您的阅读与支持~~~