AI入门：从机器学习到生成式AI，一份不完美的学习笔记

普通人能看懂的AI入门：从规则到大模型，不装高深只讲真话

说实话，写这篇文章前我犹豫了很久。市面上讲AI的文章太多了------有学术派的艰深论文，也有营销号的"AI要毁灭人类"的惊悚标题。我既不是顶尖AI研究员，也不是从业十多年的工程师，只是一个在这个行业里摸爬滚打几年、踩过不少坑的普通人。

但也许正因为这样，我能理解小白的困惑。2023年初我家人第一次用ChatGPT时问我："这东西怎么这么聪明？它是不是真的会思考？"------这个问题把我问住了。我发现，即使AI已经如此普及，大多数人（包括很多从业者）对它的理解依然停留在"魔法"层面。

这篇文章不会给你一份完美的知识图谱，而是把我这些年理解AI的思路分享给你。可能有遗漏，可能有偏见，但保证真诚。

一、先搞清楚：我们到底在聊什么？

很多人把AI、机器学习、深度学习、大模型这些词混着用。其实它们的关系大概是这样的：

AI是个筐，什么都往里装。 1956年达特茅斯会议上，几个数学家想造出"能像人一样思考的机器"，这个概念就是AI。但具体怎么实现？七十年来路线一直在变。

最早的那批人相信"规则"。既然人靠逻辑思考，那把逻辑规则写进电脑不就行了？于是有了专家系统------比如1970年代的MYCIN，能帮医生诊断血液感染。原理很简单，就是一堆if-then：

python 复制代码

if 体温>38.5 and 白细胞>12000:
    怀疑是败血症

这套东西在80年代火过一阵，DEC公司的XCON系统甚至能帮客户配电脑，准确率超过人类专家。但很快就遇到瓶颈：

知识根本写不完。一个老医生的经验，能提炼成代码的可能只有20%
例外情况太多。规则"有羽毛的就是鸟"，遇到企鹅怎么办？再加例外规则？最后系统臃肿到没人维护
不会自己进步。误诊了？除非程序员改代码，否则下次还错

我导师以前说过一句话：规则式AI就像用乐高搭城市------每块砖都得你亲手放。想建真正的城市？得让砖自己能长出来。

这就是后来"机器学习"兴起的背景。

二、机器学习的核心：别教它规则，教它学习

80年代末，思路彻底变了。与其告诉计算机"怎么想"，不如给它数据，让它自己找规律。

这个转变听起来简单，但影响深远。用行话讲，机器学习是：程序在任务T上的性能P，随着经验E的增加而提高。

太抽象？举个例子------垃圾邮件过滤器。

老式做法（规则式）：程序员写规则------"如果邮件包含'免费'、'中奖'，就是垃圾邮件"。结果骗子把"免費"写成繁体，或者"中奬"，规则就失效了。

机器学习做法：给程序看一万封邮件，告诉它"这些是垃圾，这些不是"。程序自己发现："免费"出现频率高、发件人域名可疑、正文与标题不符......这些特征的组合模式。而且它会持续学习------新型诈骗出现，只要继续喂数据，它就能跟上。

根据"学习方式"，机器学习分三支。这个分类不是绝对的，很多实际应用是混合的，但理解这三支对你看技术文章有帮助。

2.1 监督学习：有标准答案的练习

就像老师批改作业。你给AI一堆"题目+答案"，让它自己总结解题思路。

分类问题（预测类别）：

看CT判断肿瘤良性/恶性
根据交易记录识别诈骗
我去年做过一个项目，用叶片照片识别农作物病害，准确率能做到92%，但遇到光照不好的照片就翻车------这是后话

回归问题（预测数值）：

根据地段、面积预测房价
预测下个月销量

2012年Google那个著名的"猫识别"实验就是监督学习。他们没有告诉AI"猫长什么样"，而是给了一千万张YouTube缩略图。AI自己发现了"猫"这个概念------包括一些人类没明确描述过的特征。

2.2 无监督学习：没有答案，自己摸索

给你一千个人的消费记录，但不告诉你这些人是谁，让你分组。你可能会发现：

一群人买奢侈品、出国游------大概是高净值用户
一群人买奶粉、早教产品------应该是有孩家庭
一群人充游戏、点外卖------可能是年轻群体

这就是聚类。没有标准答案，但数据自己会说话。

还有异常检测------信用卡公司用它找可疑交易，工厂用它发现次品。我前公司用这招抓过内部数据泄露，虽然误报率有点高，但确实逮到了真内鬼。

2.3 强化学习：在试错中成长

这个最有意思，也最像人类学习。

想象教小孩走路。你不会说"左腿迈15厘米，重心前移"------太复杂。你只是看着他，摔倒了表示关心（轻微惩罚），走成功了鼓掌（奖励）。小孩从这些反馈里，自己摸索出平衡感。

AlphaGo就是这么学会围棋的。它自我对弈数百万局，从输赢中学习。2016年对阵李世石那局，第37步"天外飞仙"完全超出人类棋谱------这是从纯数据里"涌现"的新知识，不是程序员教的。

三、深度学习：终于不用手工设计特征了

机器学习有个痛点叫特征工程。比如做人脸识别，工程师得手工设计特征：眼间距、鼻宽、下巴角度......费时费力还不全面。

2012年，AlexNet在ImageNet比赛上把错误率降低了10.8%，震惊业界。它用的是深度神经网络------简单说，就是模拟人脑神经元连接的计算模型。

人脑有860亿个神经元，每个连接数千个邻居。人工神经网络是极度简化的版本：

人工神经元：接收输入，简单计算，输出信号
连接权重：决定信号传递强弱（相当于突触强度）
激活函数：决定要不要"激活"这个神经元
隐藏层：输入和输出之间的计算层，"深度"就是指隐藏层多

关键突破在于自动特征学习：

第一层：识别边缘、线条、颜色对比
中间层：组合成纹理、图案、部件（比如眼睛、轮子）
高层：组合成完整物体（人脸、汽车）

你不需要告诉它"猫有胡须"，它自己从数据里学到了"胡须"这个概念。2012年研究人员可视化AlexNet第一层时，发现它自动学会了边缘检测------这本来是计算机视觉里需要手工设计的核心算法。

深度学习能火，靠三个条件凑齐：

大数据：ImageNet的1400万张图片，互联网万亿级文本
大算力：GPU本来是打游戏的，结果发现做神经网络计算特别合适
算法突破：反向传播、ReLU激活函数、Dropout防过拟合等

三者缺一不可。90年代就有神经网络，但数据不够、算力太贵，只能纸上谈兵。

3.1 三种架构，各管一摊

CNN（卷积神经网络）：图像专用。核心思想是"局部连接+权值共享"------猫在图片左边还是右边，特征是一样的。从AlexNet到ResNet，现在刷手机的人脸解锁、相册自动分类，背后基本都是CNN。

RNN（循环神经网络）：处理序列数据，比如文本、语音、股票走势。它有"记忆"，能考虑上下文。但有个毛病：记性不好，太久之前的事会忘。后来发明的LSTM、GRU通过"门控机制"改善了这个缺点。

Transformer：2017年Google论文《Attention Is All You Need》，可能是近十年最重要的AI论文。

它彻底抛弃了循环结构，改用注意力机制。读文章时，RNN像逐字阅读，读到后面忘了前面；Transformer能一眼看完全文，并且自动判断"这个词和哪个词关系最密切"。

翻译任务上它碾压前辈，后来更成为大模型的基础架构。现在说的GPT、BERT，都是Transformer的变体。

四、大模型：大力出奇迹

什么叫"大模型"？没有严格定义，但通常指：

参数数十亿到数万亿（GPT-3有1750亿）
训练数据千亿到万亿token
需要几千张GPU练几个月

OpenAI发现个规律：模型性能随规模增长呈现可预测的幂律提升。简单说，只要够大，效果就好。

更惊人的是涌现能力------当规模超过某个临界点（大约100亿参数），模型突然会做一些小模型完全不会的事。比如：

小模型：能续写句子
中等模型：能回答问题
大模型：能写诗、编程、解数学题、做逻辑推理

没人明确教它这些，能力突然就"冒"出来了。

4.1 大模型是怎么练成的？

分三步，每一步都烧钱：

预训练：给模型喂整个互联网的文本，让它预测"下一个词是什么"。这个过程在学语言的统计规律------语法、词汇、事实知识、甚至推理模式。GPT-3的训练成本估计1200-2000万美元，碳排放相当于汽车跑120万公里。

指令微调：预训练模型知识丰富，但不太"听话"。你用"写首关于春天的诗"指令它，它可能回答"春天是四季之一"------虽然正确，但没按要求做。所以需要用人工标注的（指令，正确回答）对来微调。

对齐训练：让模型不仅正确，还要"有用、诚实、无害"。方法叫RLHF（人类反馈强化学习）------模型生成多个回答，人类标注哪个更好，用这个反馈训练奖励模型，再优化原模型。

4.2 现在有哪些大模型？

闭源派：

GPT系列（OpenAI）：GPT-4能处理图像，ChatGPT是对话优化版
Gemini（Google）：多模态，上下文窗口特别大
Claude（Anthropic）：安全性做得比较好

开源派：

LLaMA（Meta）：开源后引发社区创新潮
BLOOM：多语言大模型，中文支持不错
国内：文心一言、通义千问、智谱GLM、DeepSeek等

说实话，开源和闭源的差距在缩小。2023年GPT-4遥遥领先，2024年开源模型已经能追上GPT-3.5水平了。这对开发者是好事------不用依赖API，可以自己部署。

五、生成式AI：从理解到创造

之前的AI主要是判别式 ------区分猫/狗、垃圾邮件/正常邮件。生成式AI则是创造新内容。

文本生成：GPT系列是自回归生成------每次生成一个词，基于之前生成的所有内容。好处是连贯，坏处是一旦生成错了没法改，只能硬着头皮编下去。

图像生成：扩散模型是主流。原理有点反直觉：先给清晰图片逐步加噪声，直到变成纯噪声；然后训练神经网络学会"去噪"。生成时从纯噪声开始，一步步"去噪"，就得到了新图片。

Stable Diffusion、Midjourney、DALL·E 3都是这个路线。我试过用Midjourney做设计稿，效果惊艳，但手指数量经常画错------这是扩散模型的通病，对结构化细节把握不稳。

多模态：GPT-4V能看图说话，Sora能文生视频。核心技术是把图像、视频、文本映射到同一个"语义空间"，让模型统一理解。

5.1 实际应用与坑

代码生成：GitHub Copilot我用了一年多，确实能提速，但有个陷阱------它生成的代码看起来对，可能有隐蔽bug。我吃过亏，现在只敢用它写 boilerplate，核心逻辑必须自己审查。

内容创作：写营销文案、改简历、润色邮件------这些场景AI很擅长。但直接生成原创文章？目前还是"正确的废话"居多，需要大量人工编辑。

设计辅助：做PPT配图、产品原型、Logo设计，AI能省去找素材的时间。但别指望它理解品牌调性，最终决策还得人来。

六、厘清概念：一张不完美的地图

如果你被前面的术语绕晕了，这里总结下关系：

AI是总目标：让机器像人一样智能
机器学习是实现途径：从数据中学习，而非手工编程
深度学习是机器学习的子集：用深层神经网络
Transformer是深度学习的一种架构：基于注意力机制
大模型是超大规模的Transformer实例
生成式AI是大模型的应用场景：创造内容而非仅仅分类

用一句话串起来：我们想造AI（目标），发现让机器从数据学习（机器学习）比手工写规则有效；深层神经网络（深度学习）能自动学特征，其中Transformer架构特别适合并行计算；把Transformer做得极大（大模型），就涌现出生成能力（生成式AI）。

七、局限与未来：别被 hype 冲昏头

现在媒体把AI吹得太神了。作为从业者，我觉得有必要泼点冷水：

现在的AI不会什么？

没有真正的理解。大模型是"语法大师"而非"语义大师"。它能流畅讨论量子力学，但可能不理解"量子"到底是什么------只是统计意义上这些词经常一起出现。
不会真正推理。它做的是模式匹配，不是逻辑推理。数学题换个表述方式，可能就不会了。
知识有截止日期。GPT-4的知识截止到2024年初，之后的事不知道。虽然能联网搜索，但检索和生成结合得还不够好。
成本高。训练贵，推理也贵。OpenAI的API调用费用，对大规模应用来说仍是笔不小的开销。
黑箱问题。为什么给出这个答案？很难解释。这在医疗、金融等高风险场景是大问题。

未来会怎样？

短期（1-3年）：

多模态成为标配，文本图像视频统一处理
小模型崛起，针对特定场景优化的轻量化模型
AI原生应用爆发，不是"AI+旧应用"，而是重新设计交互逻辑

中期（3-5年）：

推理能力提升，从"记忆型"向"思考型"转变
能耗降低，现在AI太费电了，不可持续
个性化AI助手，真正理解个人习惯和偏好

长期（5年以上）：

通用人工智能（AGI）？说实话我不知道。技术乐观派认为10年内实现，保守派认为有本质障碍。我倾向于中间------会在特定领域达到专家水平，但全面超越人类还远。

八、给你的学习建议

如果你看到这里，说明真的想深入了解。按不同目标给点建议：

纯好奇，想跟上时代：

先用起来：ChatGPT、Claude、Midjourney，体验比阅读直观
关注几个靠谱的AI newsletter，比如"Import AI"、"The Batch"
别焦虑，大部分"AI要取代XX职业"的标题是流量生意

想用AI提升工作效率：

学点Prompt Engineering（提示词工程），不是玄学，有基本套路
了解LangChain、LlamaIndex等应用框架
从具体场景入手：写周报、做PPT、整理资料，别追求"全面掌握"

想转行做AI开发：

数学基础：线性代数、概率论、微积分，不用精通但要懂概念
编程：Python必须熟练，PyTorch或TensorFlow选一个深入
动手做项目：Kaggle入门，复现经典论文，比看十遍书有用
读论文：从ResNet、Transformer、GPT-3这些经典开始，别一上来就追最新

想做AI研究：

找好导师或加入好的实验室，单打独斗很难
关注NeurIPS、ICML、ICLR顶会，但别被论文数量绑架
培养品味------知道什么问题值得做，比会做更重要

写在最后

我家人现在用ChatGPT很熟练了，问菜谱、查资料、她依然不懂Transformer是什么，但这不妨碍她享受技术便利。

我想这就是AI最好的样子------技术退到幕后，价值回到人本身。你不需要成为AI专家才能受益，但需要有基本的判断力：知道它能做什么、不能做什么，知道什么时候该信任它、什么时候该质疑它。

我们这一代人很幸运，亲历了一场可能比肩工业革命的技术变革。也很不幸，要承受变革带来的不确定性和焦虑。

但无论如何，保持学习，保持怀疑，保持对技术背后"人"的关注。毕竟，AI再强大，定义"什么是好生活"的，依然是我们自己。