AI实践(0)学习路线

AI实践(0)学习路线

Author: Once Day Date: 2026年2月28日

一位热衷于Linux学习和开发的菜鸟,试图谱写一场冒险之旅,也许终点只是一场白日梦...

漫漫长路,有人对你微笑过嘛...

全系列文章可参考专栏: AI实践成长_Once-Day的博客-CSDN博客

参考文章:


文章目录

  • AI实践(0)学习路线
        • [1. 为什么学习AI使用方法?](#1. 为什么学习AI使用方法?)
        • [2. 核心概念介绍](#2. 核心概念介绍)
        • [3. AI核心技能](#3. AI核心技能)
          • [3.1 提示词与交互层](#3.1 提示词与交互层)
          • [3.2 模型与参数层](#3.2 模型与参数层)
          • [3.3 模型优化与训练层](#3.3 模型优化与训练层)
          • [3.4 检索与知识层](#3.4 检索与知识层)
          • [3.5 Agent 与编排层](#3.5 Agent 与编排层)
          • [3.6 工具与协议层](#3.6 工具与协议层)
          • [3.7 技能与产品层](#3.7 技能与产品层)
          • [3.8 安全与治理层](#3.8 安全与治理层)
        • [4. 学习路线](#4. 学习路线)
          • [4.1 第一阶段:基础认知](#4.1 第一阶段:基础认知)
          • [4.2 第二阶段:知识增强](#4.2 第二阶段:知识增强)
          • [4.3 第三阶段:智能编排](#4.3 第三阶段:智能编排)
          • [4.4 第四阶段:开发实践](#4.4 第四阶段:开发实践)
1. 为什么学习AI使用方法?

过去十年间,AI 技术经历了从实验室到产业界、再到普通用户桌面的快速迁移。以 ChatGPT 为代表的大语言模型在 2023 年引爆了全民关注,而随后涌现的 MidjourneyCopilotSora 等工具进一步将 AI 的能力边界拓展到图像生成、代码辅助和视频创作等领域。AI 已不再是科研论文中的抽象概念,而是触手可及的生产力工具,这意味着"会不会用 AI"正在成为一种新的基础素养。

从职业发展的角度看,AI 正在重塑几乎所有行业的工作流程。程序员借助 GitHub Copilot 提升编码效率,设计师通过 Stable Diffusion 快速产出概念稿,运营人员利用大模型批量生成营销文案------这些场景的共同特点是:AI 并非替代人类,而是作为"倍增器"放大个体的产出能力。掌握 AI 工具的人与不掌握的人之间,效率差距可能达到数倍甚至数十倍。

更深层的原因在于,AI 的使用本身具有显著的"提示工程"门槛。同样的模型,不同的提问方式会导致截然不同的输出质量。学习 AI 不仅仅是学会点击某个按钮,更核心的是理解模型的能力边界、掌握结构化提示的技巧、建立对生成结果的批判性判断力。这是一套需要刻意练习才能形成的思维方式,而非简单的工具操作。

此外,AI 技术的迭代速度极快,模型能力每隔几个月就会发生质的飞跃。今天的局限可能在下一个版本中被突破,而新的能力又会催生出全新的应用场景。如果不持续学习,就很容易陷入"用旧方法解决新问题"的惯性陷阱。保持对 AI 前沿动态的跟踪和实践,才能在技术浪潮中持续捕获红利。

从社会层面来说,AI 素养的普及也关乎信息安全与认知防线。深度伪造、AI 生成的虚假信息正在侵蚀公共信任,只有理解 AI 的生成机制,才能更好地识别和防范这些风险。学习 AI 不只是为了"用好它",同样也是为了"不被它误导"。在 AI 渗透日常生活的大趋势下,主动学习远比被动适应更为明智。

2. 核心概念介绍

人工智能(AI)、机器学习(ML)与深度学习(DL)三者之间是逐层包含的关系。

  • AI 是最广义的概念,泛指让机器模拟人类智能的技术体系;
  • ML 是实现 AI 的主流路径,其核心思想是让模型从数据中自动学习规律而非依赖显式编程;
  • DL 则是 ML 的一个子集,通过多层神经网络来提取高层次抽象特征,在图像、语音、文本等领域表现尤为突出。

数据是驱动一切 ML 模型的燃料。按形态可分为结构化数据(如数据库表格)和非结构化数据(如图片、文本、音频)。原始数据往往不能直接输入模型,需要通过特征工程将其转化为模型可理解的数值表示,例如对类别变量做 One-Hot 编码、对文本做 TF-IDF 统计等。特征质量的高低直接决定了模型效果的上限。

根据训练方式的不同,ML 可划分为三大范式:

  • 监督学习利用带标签的数据进行训练,适用于分类与回归任务;
  • 无监督学习在无标签数据上挖掘隐藏结构,常见于聚类和降维场景;
  • 强化学习则让智能体在与环境的交互中通过奖励信号不断优化策略,典型应用包括游戏 AI 和机器人控制。

神经网络是深度学习的基石,其基本单元是模拟生物神经元的感知器。在此基础上衍生出多种经典架构:CNN(卷积神经网络)擅长捕捉空间特征,广泛用于图像任务;RNN/LSTM 适合处理序列数据;Transformer 架构凭借自注意力机制彻底改变了 NLP 领域的格局,并逐步向多模态方向扩展。

自然语言处理(NLP)关注的是让机器理解和生成人类语言。其技术栈从早期的分词、词袋模型,演进到 Word2Vec 词嵌入,再到如今基于 Transformer 的预训练语言模型(如 GPTBERT)。落地场景涵盖聊天机器人、机器翻译、文本生成以及语义搜索引擎等。

计算机视觉(CV)致力于让机器从图像和视频中提取信息。核心任务包括图像分类、目标检测与图像生成,分别对应 ResNetYOLODiffusion Model 等代表性模型。这些技术已深入自动驾驶、人脸识别和增强现实等实际产品中,是当前商业化程度最高的 AI 分支之一。

模型训练完成后需要通过合理的指标进行评估。分类问题常用准确率、精确率、召回率和 F1-Score,并借助混淆矩阵直观呈现各类别的预测分布;回归问题则通常采用 MAEMSE 等指标衡量预测值与真实值的偏差程度。选择合适的评估指标与业务目标强相关。

随着 AI 系统渗透到社会各层面,伦理问题日益凸显。训练数据中的偏差可能导致模型输出带有歧视性结论;深度模型的"黑箱"特性使得决策过程难以解释,在医疗、司法等高风险场景中尤为棘手;此外,大规模数据采集引发的隐私风险也亟需通过差分隐私、联邦学习等技术手段加以缓解。

3. AI核心技能

检索增强生成(RAG)是当前大模型落地的关键技术之一。其核心思路是在模型生成回答之前,先从外部知识库中检索相关文档片段,再将检索结果作为上下文注入 Prompt,从而缓解大模型的"幻觉"问题并实现知识的实时更新。LangChainLlamaIndex 是构建 RAG 管线的两大主流框架,前者侧重通用编排能力,提供灵活的链式调用接口;后者专注于数据索引与检索优化,在文档问答场景中开箱即用。

AI Agent(智能代理)代表了大模型应用的下一个演进方向。与传统的单轮问答不同,代理能够自主规划任务、调用外部工具、在多步推理中持续迭代直至达成目标。早期探索如 AutoGPTBabyAGI 验证了"大模型驱动自主循环"的可行性,而 LangGraph agentsCrewAI 等框架则将代理开发推向了工程化阶段。构建一个可靠的代理系统,需要掌握以下几项核心能力:

  • 决策循环理解:代理通常遵循"感知→规划→执行→观察"的循环架构,理解这一闭环是调试和优化代理行为的前提。
  • 工具调用与插件编排:代理的能力边界取决于它可以调用的工具集,包括搜索引擎、代码解释器、数据库查询等。
  • 记忆管理:短期记忆用于维持当前任务上下文,长期记忆则通过向量数据库等方式实现持久化,两者协同决定了代理在复杂任务中的连贯性。
  • Prompt 链与任务拆解 :将复杂目标分解为可执行的子任务,并通过 Prompt 链串联每个步骤的输入输出,是代理可靠运行的关键设计模式。

代理架构突破了单轮对话的天花板,正在成为自动化工作流、深度研究和企业级 AI 应用的核心载体。

模型上下文协议(MCP)是 Anthropic 于 2024 年发布的开源标准,旨在为 AI 模型与外部数据源、工具之间建立统一的连接规范。可以将其类比为 AI 领域的"USB-C 接口"------无论底层模型是什么,只要工具侧实现了 MCP 协议,就可以即插即用地完成数据读取、API 调用等操作。这一标准大幅降低了代理系统的集成成本,推动了工具生态的标准化发展。

提示词工程(Prompt Engineering)是所有 AI 技能的基础。通过精心设计指令结构、提供少样本示例、设定角色与约束条件,用户可以显著提升模型输出的准确性和可控性。在开发侧,OpenCodeClaude Code 等终端编程工具将大模型能力直接嵌入开发者的命令行工作流,支持代码生成、调试、重构等操作,使 AI 辅助编程从 IDE 插件进一步延伸到更灵活的终端场景。这些技能点相互交织,共同构成了当下 AI 实践者的核心能力栈。

3.1 提示词与交互层
概念 英文 简要说明 典型场景/工具
提示词 Prompt 用户输入给模型的自然语言指令 所有大模型交互的基础
系统提示词 System Prompt 预设模型角色、行为边界的隐藏指令 ChatGPT 自定义指令、API 调用
提示词工程 Prompt Engineering 通过设计提示结构优化模型输出质量的技术 少样本示例、角色设定、约束条件
提示词模板 Prompt Template 可复用的参数化提示词结构 LangChain PromptTemplate
思维链 Chain of Thought (CoT) 引导模型逐步推理而非直接输出答案 复杂数学题、逻辑推理任务
少样本/零样本 Few-shot / Zero-shot 在提示中提供示例(或不提供)引导输出格式 分类、格式化输出
结构化输出 Structured Output 约束模型按指定格式(如 JSON)返回结果 JSON ModeFunction Calling
3.2 模型与参数层
概念 英文 简要说明 典型场景/工具
令牌 Token 模型处理文本的最小单元 计费、上下文长度计算
上下文窗口 Context Window 模型单次可处理的最大 Token 数 GPT-4o 128K、Claude 200K
温度 Temperature 控制输出随机性的采样参数,越高越发散 创意写作高温,代码生成低温
Top-p / Top-k Nucleus / Top-k Sampling 控制候选词概率分布的采样策略 API 参数调优
流式输出 Streaming 模型逐 Token 返回结果而非等待完整生成 聊天界面实时显示
多模态 Multimodal 模型同时处理文本、图像、音频、视频等 GPT-4oGemini
幻觉 Hallucination 模型生成看似合理但事实错误的内容 所有生成式模型的固有风险
3.3 模型优化与训练层
概念 英文 简要说明 典型场景/工具
微调 Fine-tuning 在预训练模型基础上用特定数据继续训练 垂直领域模型定制
低秩适配 LoRA / QLoRA 通过低秩矩阵高效微调大模型的参数子集 消费级 GPU 上微调 LLaMA
量化 Quantization 降低模型参数精度以减少显存占用和推理成本 GGUFGPTQAWQ
蒸馏 Distillation 用大模型的输出训练小模型以迁移能力 边缘端部署、降本
对齐 Alignment 使模型输出符合人类价值观和意图 RLHFDPOConstitutional AI
人类反馈强化学习 RLHF 通过人类偏好标注训练奖励模型来优化生成 ChatGPT 训练流程核心环节
嵌入 Embedding 将文本/图像映射为高维向量表示 语义搜索、RAG 检索
3.4 检索与知识层
概念 英文 简要说明 典型场景/工具
检索增强生成 RAG 检索外部知识注入上下文后再生成回答 LlamaIndexLangChain
向量数据库 Vector Database 专门存储和检索向量嵌入的数据库 PineconeMilvusChroma
知识库 Knowledge Base 供模型检索的结构化/非结构化文档集合 企业内部文档问答系统
事实锚定 Grounding 将模型输出与可验证的外部信息源关联 Google Grounding、引用标注
联网搜索 Web Search 模型实时调用搜索引擎获取最新信息 ChatGPT BrowsePerplexity
深度研究 Deep Research 代理自动多轮检索、整合并生成研究报告 Gemini Deep ResearchOpenAI Deep Research
3.5 Agent 与编排层
概念 英文 简要说明 典型场景/工具
智能代理 AI Agent 能自主规划、决策、执行任务的 AI 系统 AutoGPTLangGraph Agents
多代理 Multi-Agent 多个代理协作完成复杂任务 CrewAIAutoGenMetaGPT
推理与行动 ReAct 交替进行推理(Reason)和行动(Act)的代理范式 LangChain ReAct Agent
规划 Planning 代理将复杂目标拆解为子任务序列的能力 任务分解、执行计划生成
记忆 Memory 代理维护短期/长期上下文信息的机制 对话历史、向量化长期记忆
工作流 Workflow 预定义步骤的自动化执行流程 DifyCozen8n
编排 Orchestration 协调模型、工具、数据源之间调用顺序的逻辑层 LangChainLangGraph
Chain 将多个处理步骤串联的调用模式 LangChain LCEL
3.6 工具与协议层
概念 英文 简要说明 典型场景/工具
工具调用 Tool Use/Tool Calling 模型识别意图并调用外部函数或 API Function CallingTool Use API
函数调用 Function Calling 模型按 Schema 生成函数参数由程序执行 OpenAI Function Calling
插件 Plugin 为模型扩展特定能力的可插拔模块 ChatGPT Plugins(已演进为 GPTs
模型上下文协议 MCP Anthropic 发布的 AI 与工具连接的开源标准 类比"USB-C 接口",标准化工具集成
代理间协议 A2A Google 提出的代理之间通信与协作的协议 跨平台多代理互操作
代码解释器 Code Interpreter 模型在沙箱中编写并执行代码 ChatGPT Code Interpreter
沙箱 Sandbox 隔离运行代码/工具的安全环境 代码执行、文件处理
3.7 技能与产品层
概念 英文 简要说明 典型场景/工具
技能 Skills 封装特定能力的可复用提示词或工具组合 Copilot SkillsCoze 插件
自定义助手 Custom GPT / GPTs 用户自定义角色、知识和工具的专属 AI 助手 OpenAI GPT Store
画布 Canvas / Artifacts 模型输出可交互编辑的独立内容面板 Claude ArtifactsChatGPT Canvas
AI 编程助手 AI Coding Assistant 在 IDE 或终端中辅助代码生成与调试 CopilotCursorClaude Code
终端编程工具 CLI Coding Tool 命令行环境下的 AI 编程交互工具 OpenCodeClaude CodeAider
护栏 Guardrails 对模型输入输出进行安全过滤和格式校验的机制 Guardrails AINeMo Guardrails
3.8 安全与治理层
概念 英文 简要说明 典型场景/工具
越狱 Jailbreak 绕过模型安全限制使其输出违规内容的攻击手法 提示注入、角色扮演绕过
提示注入 Prompt Injection 通过恶意输入劫持模型行为的攻击方式 间接注入、指令覆盖
红队测试 Red Teaming 主动探测模型安全漏洞的对抗性评估 模型发布前的安全审计
可解释性 Explainability / XAI 让模型决策过程可被人类理解的技术 SHAPLIME、注意力可视化
数据偏差 Data Bias 训练数据中的偏见导致模型输出歧视性结果 公平性审计、去偏训练
4. 学习路线

在当前阶段,优先学习应用能力,包括提示词、Token、上下文窗口、幻觉、知识库、联网搜索、代理、工作流、工具、函数调用、模型上下文协议、技能、编程助手、终端工具等方面。

以下学习路线按"认知→增强→编排→实践"四个阶段递进展开,每个阶段的知识都是下一阶段的前置依赖。
基础认知
知识增强
智能编排
开发实践
提示词 / Token / 上下文窗口 / 幻觉
知识库 / 联网搜索
代理 / 工作流 / 工具 / 函数调用 / MCP
技能 / 编程助手 / 终端工具

4.1 第一阶段:基础认知

这一阶段的核心目标是建立与大模型交互的正确心智模型。建议先通读一遍 OpenAI 官方文档,再结合提示词工程指南反复练习,重点体会 Token 计量与上下文窗口对实际对话质量的影响。

知识点 学习建议 参考资料
提示词 从零样本、少样本、思维链三种范式入手,在 ChatGPTClaude 中反复对比不同写法的输出差异 Prompt Engineering Guide
Token 使用 OpenAI 的 Tokenizer 工具实际拆解中英文文本,观察分词结果和计数规律 OpenAI Tokenizer
上下文窗口 尝试在长对话中观察模型"遗忘"现象,理解滑动窗口截断机制 OpenAI Models 文档
幻觉 收集真实幻觉案例进行归因分析,了解常见缓解策略如引用溯源、置信度标注等 Survey of Hallucination in LLMs

关键词解释:

  • Prompt(提示词)是与大模型交互的核心手段,掌握角色设定、少样本示例、思维链等技巧是一切应用的起点。

  • Token 是模型处理文本的最小单元,中文一个汉字通常被切分为 1~2 个 Token,它直接决定了调用成本和输入上限。

  • Context Window(上下文窗口)定义了模型单次对话能"看到"的 Token 总量,超出窗口的信息会被截断,因此理解其边界对长文本任务至关重要。

  • Hallucination(幻觉)指模型生成看似合理但事实错误的内容,认识幻觉的成因才能在后续阶段有针对性地缓解它。

4.2 第二阶段:知识增强

知识库和联网搜索是当前落地最广泛的增强手段。建议先用 DifyFastGPT 等平台快速搭建一个端到端的 RAG 应用,获得直观体感后再深入 Embedding、向量检索和 Chunk 策略等底层细节。

知识点 学习建议 参考资料
知识库(RAG) 选一份自己熟悉的文档作为语料,走通"切片→向量化→检索→生成"全流程,重点关注切片粒度对召回质量的影响 LangChain RAG 教程Dify 官方文档
联网搜索 体验 PerplexityChatGPT Browse 等产品的搜索增强效果,再通过 API 集成 Tavily 等搜索工具自行实现 Tavily API 文档

关键词解释:

  • 知识库 通常基于 RAG(检索增强生成)架构实现:先将私有文档切片并通过 Embedding 模型向量化,存入向量数据库,查询时检索最相关片段注入上下文,从而让模型回答"它未曾训练过"的领域问题,是抑制幻觉最直接的手段。

  • 联网搜索则是另一条增强路径,它允许模型在推理前实时检索互联网信息,解决知识时效性问题,二者经常组合使用以兼顾私域深度和公域广度。

4.3 第三阶段:智能编排

这一阶段概念密度最高,建议以 DifyCoze 作为可视化实验平台,先拖拽搭建一个包含工具调用的 Agent,再阅读源码理解底层的 Function Calling 协议。MCP 作为新兴标准,重点关注其"统一工具接入"的设计思想。

知识点 学习建议 参考资料
代理(Agent) ReAct 范式入手,理解"推理→行动→观察"循环,再扩展到多 Agent 协作场景 LangChain Agents 文档
工作流 DifyCoze 中搭建一个包含条件分支和循环的工作流,对比与 Agent 自主决策的差异 Dify Workflow 文档
工具 / 函数调用 手动编写一个天气查询 Function,通过 OpenAI API 的 tools 参数完成端到端调用 OpenAI Function Calling 指南
MCP 阅读协议规范,理解 ResourceToolPrompt 三种原语,尝试用官方 SDK 实现一个简单的 MCP Server MCP 官方文档

关键词解释:

  • Agent(代理)是具备自主规划与工具调用能力的智能体,能将复杂任务拆解为多步执行。

  • Workflow(工作流)则以显式的有向图定义执行流程,确定性更强,适合对可控性要求高的场景。二者的行动能力都依赖于Tool(工具)和 Function Calling(函数调用)------模型输出结构化的函数名与参数,由宿主程序执行真实操作后将结果回传。

  • MCP(模型上下文协议)是 Anthropic 提出的开放标准,它为模型与外部工具/数据源之间定义了统一的通信协议,使不同工具的接入像 USB 一样即插即用,正在成为 Agent 生态的重要基础设施。

4.4 第四阶段:开发实践

最后一个阶段重在"用起来"。建议将 CursorClaude Code 融入日常开发流程,从代码补全、单元测试生成等小任务开始,逐步过渡到用自然语言驱动完整功能开发,在实践中串联前三阶段的所有知识。

知识点 学习建议 参考资料
技能封装 CozeDify 中将一组工具和提示词封装为可复用的技能插件,理解技能的输入输出契约设计 Coze 技能文档
编程助手 Cursor 为主力工具,重点掌握 Tab 补全、Cmd+K 编辑和 Chat 三种交互模式的适用场景 Cursor 官方文档
终端工具 安装 Claude Code,从文件操作和脚本执行等基础任务入手,逐步尝试让它独立完成项目级别的代码重构 Claude Code 文档

关键词解释:

  • Skill(技能)是对一组提示词、工具调用和工作流的封装,可以理解为 Agent 的"可复用能力模块"。

  • 编程助手如 CursorGitHub Copilot 将上述能力深度集成进 IDE,实现代码补全、跨文件重构和自然语言驱动开发。

  • 终端工具如 Claude Code 则将 Agent 能力延伸到命令行环境,可直接操作文件系统、执行脚本,是当前 AI 辅助开发的前沿方向。建议在此阶段选择一个实际项目,串联前三阶段知识进行端到端实践。

Once Day

也信美人终作土,不堪幽梦太匆匆......
如果这篇文章为您带来了帮助或启发,不妨点个赞👍和关注!
(。◕‿◕。)感谢您的阅读与支持~~~

相关推荐
数据与后端架构提升之路1 小时前
论大模型应用架构(RAG/Agent)的设计与应用——以自动驾驶数据闭环平台为例
人工智能·架构·自动驾驶
ccLianLian1 小时前
LLM·Agent
人工智能
xinxiangwangzhi_1 小时前
立体匹配--深度学习方法综述(1)
人工智能·深度学习·计算机视觉
九河云1 小时前
数据上云的安全边界:零信任架构在混合云场景的应用
大数据·人工智能·安全·架构·数字化转型
wang_chao1182 小时前
目标检测基础概念
人工智能·目标检测·目标跟踪
读研的武2 小时前
Golang学习笔记 入门篇
笔记·学习·golang
啊阿狸不会拉杆2 小时前
《计算机视觉:模型、学习和推理》第 18 章-身份与方式模型
人工智能·python·学习·计算机视觉·分类·子空间身份模型·plda
程序大视界2 小时前
Mac电脑详细养小龙虾教程
人工智能·ai·openclaw
深小乐2 小时前
关于 AI,作为一名互联网人,聊聊我当下最真实的想法
人工智能