!NOTE\] 笔记说明 本系列笔记用于系统整理我在长期学习、实践与反思人工智能理论及其相关工具的使用过程中,逐步形成的一些结构性认识。这些内容将被持续维护于我的[个人计算机学习笔记库](https://github.com/owlman/CS_StudyNotes)中,并会随着理解的深化不断修订,而非一次性结论。
术语/名词简介
在正式开始规划如何学习现代人工智能理论及其相关工具的使用方法之前,考虑到如今到处有人拿着一些时下热门的流行词汇装神弄鬼,把人说得时而兴奋,时而焦虑,想要学习却无从下手,我觉得还是有必要先对一些术语/名词进行简要的澄清,以便后续能更好地展开相关的讨论。
-
人工智能(Artificial Intelligence,英文缩写 AI):泛指一整套致力于让机器实现智能化的计算机技术。其长期目标之一,是构建一套具备感知、推理、决策能力的通用软件系统。
-
机器学习(Machine Learning,英文缩写 ML):这是现代人工智能主流的训练方法,主要思路是让机器通过数据学习规律,从而做出预测和决策。目前主要包括监督学习、无监督学习、强化学习等几种范式,当前工程实践以基于深度神经网络的监督学习为主(即所谓的深度学习)。
-
大语言模型(Large Language Model,英文缩写 LLM):这是一种基于深度学习架构训练的通用语言模型,它通常会以 API 或本地推理形式向用户提供服务,例如 OpenAI 的 GPT、Google 的 Gemini、Anthropic 的 Claude、Meta 的 LLaMA、智普的 GLM 等(截止到 2026 年 1 月)。
-
提示词(Prompt):泛指用户在与 LLM 交互时所要输入的文本内容与特定指令,用于引导模型生成特定输出。
-
模型上下文协议(Model Context Protocol,英文缩写 MCP):一种通信协议,最早由 Anthropic 公司提出,主要用于在 AI Agent 系统中实现标准化地描述上下文、工具能力与外部资源,有时也泛指基于该协议提供的工具包。
-
AI 智能体(AI Agent);泛指以 LLM 为核心,具备状态管理、工具调用与任务执行能力的人工智能代理系统,它可在用户授权范围内执行本地或远程操作,其典型应用按交互/部署的方式可划分为:
- 人机通信型 AI Agent:如 Google AI Studio、腾讯元宝;
- 命令行工具型 AI Agent:如 Claude Code、OpenCode;
- 可部署服务型 AI Agent:如 OpenClaw(原名 Clawdbot);
-
AI 智能体的技能单元(AI Agent Skills):通常可被视为是对 Prompt 及其相关工具描述、执行逻辑的封装。
在我个人看来,一份合格的科普应该要能让读者顺着文中所用到的词汇一个接一个查询下去,且越查越知道自己要学什么。下面,就让我顺着上面提到的这些术语/名词来规划一下学习 AI 的路线图吧。
学习路线图规划
正如之前所说,AI 是一整套相关技术的集合,这就决定了它的学习路线不太可能是一条单向进阶的技能树。我们大概率需要在基础理论与工程实践之间来回切换学习的视角,具体来说就是,我们既要让理论指导具体的项目实践,也要让项目的实践过程反过来帮助我们加深对基础理论的理解。只有这样,我们才能不被市面上一些表面热闹非凡、实则空洞无物的"炒作"所迷惑,真正地在日常/生活工作中正确地使用 AI 的相关技术。基于这些思考,我个人规划了以下四个阶段的学习路线图。
第一阶段:理解 AI 的能力边界
在我个人看来,学习任何一门技术的第一步,都是要先搞清楚它能做什么和不能做什么。具体到 AI 领域,这就需要我们先粗略地了解一下其研究方法的演变历程,以及这些方法各自所依赖的数学模型。然后,我们大致就可以基于自己掌握的数学知识来回答以下问题了:
- 为什么如今主流的 AI 训练方法是以深度神经网络为主?
- 基于深度神经网络的训练方法主要用于解决什么类型的问题?
- 基于深度神经网络的训练方法为什么能取得如此好的效果?
- 为什么某些任务看似简单,却难以通过深度神经网络来解决?
换言之,这一阶段的学习重点应放在对方法论的理解上,为此,我在这里会推荐阅读以下经典教材:
-
-
原作名:Artificial Intelligence: A Modern Approach;
-
作者:Stuart Russell, Peter Norvig;
-
出版社: 人民邮电出版社;
-
要解决的问题:AI 研究方法经历过哪些路线?为什么符号主义、专家系统逐渐退场?
-
建议阅读方式:选读(搜索、推理、学习三大块);
📌 这本书的关键作用是回答"为什么深度学习会成为主流"这个问题。
-
-
-
原作名:Pattern Recognition and Machine Learning;
-
作者:Christopher Bishop;
-
出版社: 人民邮电出版社;
-
要解决的问题:了解学习的本质是什么?概率模型是如何统一看待不同算法的?
-
建议阅读方式:选读(概率模型、神经网络、优化与泛化);
📌 这本书提供的是"基于数学模型来回答问题"的理论支点。
-
-
-
原作名:The Elements of Statistical Learning;
-
作者:Hastie, Tibshirani, Friedman;
-
出版社: 清华大学出版社;
-
要解决的问题:为什么某些"人类觉得简单"的任务,模型却很难?
-
建议阅读方式:建议读英文原版,选读(偏差-方差、样本复杂度、模型选择、正则化);
📌 这本书的关键作用是帮助读者建立"不要迷信模型"的概念。
-
需要再次强调的是,我们阅读上述书籍的目的是理解方法论及其背后的数学模型,了解当前 AI 技术的能力边界。尤其当您是非学术/研究领域的普通开发者时,切记在这一阶段不要太过深入地去学习数学推导的细节,或者全面细致地去探究上述书籍中的每一个知识点,因为这大概率会让您无法继续前进。当然,如果您是 AI 领域的科研人员,或者将来有志于从事这方面研究的学生,想必也不需要我在这里班门弄斧了。
第二阶段:掌握深度学习的基本工作机制
在明确了 AI 的能力边界之后,下一阶段的学习重点就应该是深度学习的工作机制及其背后的原理了。换言之,我们要能理解 AI 模型是如何通过数据形成行为模式的,这需要我们建立对以下问题的清晰认知:
- AI 模型在训练过程中究竟"学"到了什么?
- 机器在学习过程中所要优化的对象是什么?
- 模型行为与损失函数之间存在怎样的映射关系?
只有在回答清楚这些问题之后,我们后续对模型效果的判断、对系统行为的预期,才不会停留在表面经验层面(并因此被媒体贩卖焦虑和恐惧)。为此,我在这里会推荐阅读以下经典教材:
-
-
原作名:Deep Learning;
-
作者:Ian Goodfellow, Yoshua Bengio, Aaron Courville;
-
出版社: 人民邮电出版社;
-
要解决的问题:为什么主流方法是深度神经网络?它专长解决什么类型的问题?
-
建议阅读方式:选读(表示学习、优化与泛化、卷积网络、序列建模);
📌 这本书是 AI 学习者不可回避的"正典",但不必也不需要追求一次读通它。
-
-
-
原作名:Neural Networks and Learning Machines;
-
作者:Simon Haykin;
-
出版社: 机械工业出版社;
-
要解决的问题:为什么神经网络适合处理链接连接、噪声和近似问题?
-
建议阅读方式:选读(神经网络、学习算法、卷积神经网络、循环神经网络)
📌 这本书的作用是回答"为什么神经网络的效果好,但不万能"这个问题。
-
-
-
原作名:Reinforcement Learning: An Introduction;
-
作者:Richard S. Sutton, Andrew G. Barto;
-
出版社: 电子工业出版社;
-
要解决的问题:帮助理解深度网络 ≠ 自动具备智能;
-
建议阅读方式:建议读英文版,浅读即可。
📌 这本书的作用是帮助读者理解"方法 ≠ 目标"的概念。
-
在这一阶段,初学者们常犯的一个错误是,把"模型学习"理解为"模型学会了规则"。实际上,在绝大多数工程场景中,神经网络所做的事情更接近于:在高维参数空间中,寻找一个在给定数据分布上表现足够好的函数近似,换言之就是:
- AI 模型并不会显式地"理解"任务目标;
- 所谓的"智能表现",来源于函数逼近在统计意义上的成功;
- 当输入分布发生变化时,模型行为可能出现不可预期的退化。
因此,读者需要重点理解的是函数逼近、概率建模与优化过程之间的关系,而不是具体网络结构的堆叠技巧。完成这一阶段后,我们不一定能够训练出一个效果很好的模型,但应当能够解释模型行为出现偏差的可能原因、区分"模型能力不足"与"目标定义不合理",并对模型效果的提升空间做出理性预期。这意味着,我们将开始从"算法使用者"逐步过渡为对模型行为具有判断力的工程实践者。
第三阶段:将 LLM 部署到实际生产环境中
在完成了前两个阶段的理论准备之后,接下来,我们就可以开始转向面向实际生产环境的工程实践了。当然了,这一阶段的学习重点应该是,通过在生产环境中的实际部署过程,来理解 LLM 是以系统组件的形式存在于整个软件系统中的,而不是一个孤立的工具。换言之,我们在这一阶段要能回答以下问题:
- LLM 在系统中扮演的角色是什么?它是核心决策单元,还是能力增强模块?
- AI 模型的不确定性,它会通过哪些路径影响系统稳定性?
- 哪些问题是模型本身的问题,哪些问题其实是系统设计问题?
- 为什么同一个模型,在不同系统中表现差异巨大?
只有在正确地回答了上述问题之后,我们才能在今后的工程实践中正确地使用 LLM,不会像某些媒体一样把 AI 模型,甚至 AI Agent 类比成操作系统。为此,我在这里会推荐读者根据自身的能力选择以下一条路径来完成一个 LLM 在生产环境中的有效部署:
- 基于 Ollama 工具流部署一个能在本地运行并进行调试的 AI 模型;
- 基于 PyToch 等深度学习框架亲手实现一个可运行起来的 AI 模型;
关联笔记:[[PyToch 学习笔记]]、[[Ollama 学习笔记]]
无论采取哪一条路径完成这一阶段的学习,我们的目标都是要能明确 LLM 的以下相关问题:
- 输入边界:模型可以接收什么样的输入?哪些输入需要在进入模型前被过滤、裁剪或重写?
- 输出约束:模型输出如何被结构化?如何避免将自然语言输出直接作为系统指令执行?
- 失败模式:当模型输出不可靠、超时或不可解析时,系统如何退化?
- 责任边界:哪些决策可以交给模型,哪些必须由确定性逻辑完成?
只有在理解了这些问题之后,我们才能真正开始把 LLM 视为一个不稳定但有价值的外部能力源,而非"更聪明的函数"。
第四阶段:基于 AI Agent 进行具体项目开发
在完成了前一阶段对 LLM 在生产系统中角色与边界的理解之后,我们才真正具备了引入 AI Agent 的前提条件。需要明确的是,AI Agent 在生产系统中的角色是 LLM 的集成调用环境,其角色类似于数据库系统中的 SQL 引擎,而非直接调用 LLM 的"客户端"。因此,这一阶段的学习重点应放在以下问题上:
- Agent 的任务边界应如何定义?哪些任务适合交给 Agent,哪些不适合?
- Agent 的"自主性"应当被限制在什么范围内?
- 当 Agent 的推理结果出现偏差时,系统应如何介入或终止其行为?
- Agent 的失败成本由谁承担?如何避免失败被放大为系统性风险?
只有在明确这些问题之后,Agent 才能真正成为我们在执行具体项目实践时的"得力助手",而非因媒体炒作而焦虑、恐惧的"黑盒子"。为此,我在这里会推荐读者根据自身的能力选择以下一条路径来完成对 AI Agent 的有效学习:
- 基于 OpenCode 这类在本地运行的 AI Agent 完成一个中小型项目的开发;
- 基于 OpenClaw 这类可容器化部署的 AI Agent 完成一个中小型项目的开发;
关联笔记:[[OpenCode 学习笔记]]、[[OpenClaw 学习笔记]]
完成这一阶段的学习后,我们应当能够回答以下问题:
- 在具体项目中,引入 Agent 是否真的有必要?
- 相比确定性程序,Agent 带来的收益是否足以覆盖其不确定性成本?
- 当 Agent 不再可控时,系统是否可以无损地回退?
只有当我们能理性地回答上述问题时,AI Agent 才会从技术展示品,转变为一种可以被谨慎使用的工程手段。
结束语
最后需要再次强调一下,我在这里所列出的学习阶段并非严格线性的学习流程,它只用于明确认知依赖关系。换言之,越靠前的阶段,越决定后续学习是否高效;越靠后的阶段,越依赖工程经验而非理论深度。 在实际学习过程中,可以根据个人背景进行交叉推进,但不应跳过对前置判断的建立。学习路线的核心价值,并不在于掌握多少工具,而在于避免在错误的阶段投入过多精力。