AI入门:从机器学习到生成式AI,一份不完美的学习笔记

普通人能看懂的AI入门:从规则到大模型,不装高深只讲真话

说实话,写这篇文章前我犹豫了很久。市面上讲AI的文章太多了------有学术派的艰深论文,也有营销号的"AI要毁灭人类"的惊悚标题。我既不是顶尖AI研究员,也不是从业十多年的工程师,只是一个在这个行业里摸爬滚打几年、踩过不少坑的普通人。

但也许正因为这样,我能理解小白的困惑。2023年初我家人第一次用ChatGPT时问我:"这东西怎么这么聪明?它是不是真的会思考?"------这个问题把我问住了。我发现,即使AI已经如此普及,大多数人(包括很多从业者)对它的理解依然停留在"魔法"层面。

这篇文章不会给你一份完美的知识图谱,而是把我这些年理解AI的思路分享给你。可能有遗漏,可能有偏见,但保证真诚。

一、先搞清楚:我们到底在聊什么?

很多人把AI、机器学习、深度学习、大模型这些词混着用。其实它们的关系大概是这样的:

AI是个筐,什么都往里装。 1956年达特茅斯会议上,几个数学家想造出"能像人一样思考的机器",这个概念就是AI。但具体怎么实现?七十年来路线一直在变。

最早的那批人相信"规则"。既然人靠逻辑思考,那把逻辑规则写进电脑不就行了?于是有了专家系统------比如1970年代的MYCIN,能帮医生诊断血液感染。原理很简单,就是一堆if-then:

python 复制代码
if 体温>38.5 and 白细胞>12000:
    怀疑是败血症

这套东西在80年代火过一阵,DEC公司的XCON系统甚至能帮客户配电脑,准确率超过人类专家。但很快就遇到瓶颈:

  • 知识根本写不完。一个老医生的经验,能提炼成代码的可能只有20%

  • 例外情况太多。规则"有羽毛的就是鸟",遇到企鹅怎么办?再加例外规则?最后系统臃肿到没人维护

  • 不会自己进步。误诊了?除非程序员改代码,否则下次还错

我导师以前说过一句话:规则式AI就像用乐高搭城市------每块砖都得你亲手放。想建真正的城市?得让砖自己能长出来。

这就是后来"机器学习"兴起的背景。

二、机器学习的核心:别教它规则,教它学习

80年代末,思路彻底变了。与其告诉计算机"怎么想",不如给它数据,让它自己找规律。

这个转变听起来简单,但影响深远。用行话讲,机器学习是:程序在任务T上的性能P,随着经验E的增加而提高

太抽象?举个例子------垃圾邮件过滤器。

老式做法(规则式):程序员写规则------"如果邮件包含'免费'、'中奖',就是垃圾邮件"。结果骗子把"免費"写成繁体,或者"中奬",规则就失效了。

机器学习做法:给程序看一万封邮件,告诉它"这些是垃圾,这些不是"。程序自己发现:"免费"出现频率高、发件人域名可疑、正文与标题不符......这些特征的组合模式。而且它会持续学习------新型诈骗出现,只要继续喂数据,它就能跟上。

根据"学习方式",机器学习分三支。这个分类不是绝对的,很多实际应用是混合的,但理解这三支对你看技术文章有帮助。

2.1 监督学习:有标准答案的练习

就像老师批改作业。你给AI一堆"题目+答案",让它自己总结解题思路。

分类问题(预测类别):

  • 看CT判断肿瘤良性/恶性

  • 根据交易记录识别诈骗

  • 我去年做过一个项目,用叶片照片识别农作物病害,准确率能做到92%,但遇到光照不好的照片就翻车------这是后话

回归问题(预测数值):

  • 根据地段、面积预测房价

  • 预测下个月销量

2012年Google那个著名的"猫识别"实验就是监督学习。他们没有告诉AI"猫长什么样",而是给了一千万张YouTube缩略图。AI自己发现了"猫"这个概念------包括一些人类没明确描述过的特征。

2.2 无监督学习:没有答案,自己摸索

给你一千个人的消费记录,但不告诉你这些人是谁,让你分组。你可能会发现:

  • 一群人买奢侈品、出国游------大概是高净值用户

  • 一群人买奶粉、早教产品------应该是有孩家庭

  • 一群人充游戏、点外卖------可能是年轻群体

这就是聚类。没有标准答案,但数据自己会说话。

还有异常检测------信用卡公司用它找可疑交易,工厂用它发现次品。我前公司用这招抓过内部数据泄露,虽然误报率有点高,但确实逮到了真内鬼。

2.3 强化学习:在试错中成长

这个最有意思,也最像人类学习。

想象教小孩走路。你不会说"左腿迈15厘米,重心前移"------太复杂。你只是看着他,摔倒了表示关心(轻微惩罚),走成功了鼓掌(奖励)。小孩从这些反馈里,自己摸索出平衡感。

AlphaGo就是这么学会围棋的。它自我对弈数百万局,从输赢中学习。2016年对阵李世石那局,第37步"天外飞仙"完全超出人类棋谱------这是从纯数据里"涌现"的新知识,不是程序员教的。

三、深度学习:终于不用手工设计特征了

机器学习有个痛点叫特征工程。比如做人脸识别,工程师得手工设计特征:眼间距、鼻宽、下巴角度......费时费力还不全面。

2012年,AlexNet在ImageNet比赛上把错误率降低了10.8%,震惊业界。它用的是深度神经网络------简单说,就是模拟人脑神经元连接的计算模型。

人脑有860亿个神经元,每个连接数千个邻居。人工神经网络是极度简化的版本:

  • 人工神经元:接收输入,简单计算,输出信号

  • 连接权重:决定信号传递强弱(相当于突触强度)

  • 激活函数:决定要不要"激活"这个神经元

  • 隐藏层:输入和输出之间的计算层,"深度"就是指隐藏层多

关键突破在于自动特征学习

  • 第一层:识别边缘、线条、颜色对比

  • 中间层:组合成纹理、图案、部件(比如眼睛、轮子)

  • 高层:组合成完整物体(人脸、汽车)

你不需要告诉它"猫有胡须",它自己从数据里学到了"胡须"这个概念。2012年研究人员可视化AlexNet第一层时,发现它自动学会了边缘检测------这本来是计算机视觉里需要手工设计的核心算法。

深度学习能火,靠三个条件凑齐:

  1. 大数据:ImageNet的1400万张图片,互联网万亿级文本

  2. 大算力:GPU本来是打游戏的,结果发现做神经网络计算特别合适

  3. 算法突破:反向传播、ReLU激活函数、Dropout防过拟合等

三者缺一不可。90年代就有神经网络,但数据不够、算力太贵,只能纸上谈兵。

3.1 三种架构,各管一摊

CNN(卷积神经网络):图像专用。核心思想是"局部连接+权值共享"------猫在图片左边还是右边,特征是一样的。从AlexNet到ResNet,现在刷手机的人脸解锁、相册自动分类,背后基本都是CNN。

RNN(循环神经网络):处理序列数据,比如文本、语音、股票走势。它有"记忆",能考虑上下文。但有个毛病:记性不好,太久之前的事会忘。后来发明的LSTM、GRU通过"门控机制"改善了这个缺点。

Transformer:2017年Google论文《Attention Is All You Need》,可能是近十年最重要的AI论文。

它彻底抛弃了循环结构,改用注意力机制。读文章时,RNN像逐字阅读,读到后面忘了前面;Transformer能一眼看完全文,并且自动判断"这个词和哪个词关系最密切"。

翻译任务上它碾压前辈,后来更成为大模型的基础架构。现在说的GPT、BERT,都是Transformer的变体。

四、大模型:大力出奇迹

什么叫"大模型"?没有严格定义,但通常指:

  • 参数数十亿到数万亿(GPT-3有1750亿)

  • 训练数据千亿到万亿token

  • 需要几千张GPU练几个月

OpenAI发现个规律:模型性能随规模增长呈现可预测的幂律提升。简单说,只要够大,效果就好。

更惊人的是涌现能力------当规模超过某个临界点(大约100亿参数),模型突然会做一些小模型完全不会的事。比如:

  • 小模型:能续写句子

  • 中等模型:能回答问题

  • 大模型:能写诗、编程、解数学题、做逻辑推理

没人明确教它这些,能力突然就"冒"出来了。

4.1 大模型是怎么练成的?

分三步,每一步都烧钱:

预训练:给模型喂整个互联网的文本,让它预测"下一个词是什么"。这个过程在学语言的统计规律------语法、词汇、事实知识、甚至推理模式。GPT-3的训练成本估计1200-2000万美元,碳排放相当于汽车跑120万公里。

指令微调:预训练模型知识丰富,但不太"听话"。你用"写首关于春天的诗"指令它,它可能回答"春天是四季之一"------虽然正确,但没按要求做。所以需要用人工标注的(指令,正确回答)对来微调。

对齐训练:让模型不仅正确,还要"有用、诚实、无害"。方法叫RLHF(人类反馈强化学习)------模型生成多个回答,人类标注哪个更好,用这个反馈训练奖励模型,再优化原模型。

4.2 现在有哪些大模型?

闭源派

  • GPT系列(OpenAI):GPT-4能处理图像,ChatGPT是对话优化版

  • Gemini(Google):多模态,上下文窗口特别大

  • Claude(Anthropic):安全性做得比较好

开源派

  • LLaMA(Meta):开源后引发社区创新潮

  • BLOOM:多语言大模型,中文支持不错

  • 国内:文心一言、通义千问、智谱GLM、DeepSeek等

说实话,开源和闭源的差距在缩小。2023年GPT-4遥遥领先,2024年开源模型已经能追上GPT-3.5水平了。这对开发者是好事------不用依赖API,可以自己部署。

五、生成式AI:从理解到创造

之前的AI主要是判别式 ------区分猫/狗、垃圾邮件/正常邮件。生成式AI则是创造新内容

文本生成:GPT系列是自回归生成------每次生成一个词,基于之前生成的所有内容。好处是连贯,坏处是一旦生成错了没法改,只能硬着头皮编下去。

图像生成:扩散模型是主流。原理有点反直觉:先给清晰图片逐步加噪声,直到变成纯噪声;然后训练神经网络学会"去噪"。生成时从纯噪声开始,一步步"去噪",就得到了新图片。

Stable Diffusion、Midjourney、DALL·E 3都是这个路线。我试过用Midjourney做设计稿,效果惊艳,但手指数量经常画错------这是扩散模型的通病,对结构化细节把握不稳。

多模态:GPT-4V能看图说话,Sora能文生视频。核心技术是把图像、视频、文本映射到同一个"语义空间",让模型统一理解。

5.1 实际应用与坑

代码生成:GitHub Copilot我用了一年多,确实能提速,但有个陷阱------它生成的代码看起来对,可能有隐蔽bug。我吃过亏,现在只敢用它写 boilerplate,核心逻辑必须自己审查。

内容创作:写营销文案、改简历、润色邮件------这些场景AI很擅长。但直接生成原创文章?目前还是"正确的废话"居多,需要大量人工编辑。

设计辅助:做PPT配图、产品原型、Logo设计,AI能省去找素材的时间。但别指望它理解品牌调性,最终决策还得人来。

六、厘清概念:一张不完美的地图

如果你被前面的术语绕晕了,这里总结下关系:

  • AI是总目标:让机器像人一样智能

  • 机器学习是实现途径:从数据中学习,而非手工编程

  • 深度学习是机器学习的子集:用深层神经网络

  • Transformer是深度学习的一种架构:基于注意力机制

  • 大模型是超大规模的Transformer实例

  • 生成式AI是大模型的应用场景:创造内容而非仅仅分类

用一句话串起来:我们想造AI(目标),发现让机器从数据学习(机器学习)比手工写规则有效;深层神经网络(深度学习)能自动学特征,其中Transformer架构特别适合并行计算;把Transformer做得极大(大模型),就涌现出生成能力(生成式AI)。

七、局限与未来:别被 hype 冲昏头

现在媒体把AI吹得太神了。作为从业者,我觉得有必要泼点冷水:

现在的AI不会什么?

  1. 没有真正的理解。大模型是"语法大师"而非"语义大师"。它能流畅讨论量子力学,但可能不理解"量子"到底是什么------只是统计意义上这些词经常一起出现。

  2. 不会真正推理。它做的是模式匹配,不是逻辑推理。数学题换个表述方式,可能就不会了。

  3. 知识有截止日期。GPT-4的知识截止到2024年初,之后的事不知道。虽然能联网搜索,但检索和生成结合得还不够好。

  4. 成本高。训练贵,推理也贵。OpenAI的API调用费用,对大规模应用来说仍是笔不小的开销。

  5. 黑箱问题。为什么给出这个答案?很难解释。这在医疗、金融等高风险场景是大问题。

未来会怎样?

短期(1-3年):

  • 多模态成为标配,文本图像视频统一处理

  • 小模型崛起,针对特定场景优化的轻量化模型

  • AI原生应用爆发,不是"AI+旧应用",而是重新设计交互逻辑

中期(3-5年):

  • 推理能力提升,从"记忆型"向"思考型"转变

  • 能耗降低,现在AI太费电了,不可持续

  • 个性化AI助手,真正理解个人习惯和偏好

长期(5年以上):

  • 通用人工智能(AGI)?说实话我不知道。技术乐观派认为10年内实现,保守派认为有本质障碍。我倾向于中间------会在特定领域达到专家水平,但全面超越人类还远。

八、给你的学习建议

如果你看到这里,说明真的想深入了解。按不同目标给点建议:

纯好奇,想跟上时代

  • 先用起来:ChatGPT、Claude、Midjourney,体验比阅读直观

  • 关注几个靠谱的AI newsletter,比如"Import AI"、"The Batch"

  • 别焦虑,大部分"AI要取代XX职业"的标题是流量生意

想用AI提升工作效率

  • 学点Prompt Engineering(提示词工程),不是玄学,有基本套路

  • 了解LangChain、LlamaIndex等应用框架

  • 从具体场景入手:写周报、做PPT、整理资料,别追求"全面掌握"

想转行做AI开发

  • 数学基础:线性代数、概率论、微积分,不用精通但要懂概念

  • 编程:Python必须熟练,PyTorch或TensorFlow选一个深入

  • 动手做项目:Kaggle入门,复现经典论文,比看十遍书有用

  • 读论文:从ResNet、Transformer、GPT-3这些经典开始,别一上来就追最新

想做AI研究

  • 找好导师或加入好的实验室,单打独斗很难

  • 关注NeurIPS、ICML、ICLR顶会,但别被论文数量绑架

  • 培养品味------知道什么问题值得做,比会做更重要

写在最后

我家人现在用ChatGPT很熟练了,问菜谱、查资料、她依然不懂Transformer是什么,但这不妨碍她享受技术便利。

我想这就是AI最好的样子------技术退到幕后,价值回到人本身。你不需要成为AI专家才能受益,但需要有基本的判断力:知道它能做什么、不能做什么,知道什么时候该信任它、什么时候该质疑它。

我们这一代人很幸运,亲历了一场可能比肩工业革命的技术变革。也很不幸,要承受变革带来的不确定性和焦虑。

但无论如何,保持学习,保持怀疑,保持对技术背后"人"的关注。毕竟,AI再强大,定义"什么是好生活"的,依然是我们自己。

相关推荐
渡我白衣2 小时前
运筹帷幄——在线学习与实时预测系统
人工智能·深度学习·神经网络·学习·算法·机器学习·caffe
星星也在雾里2 小时前
Dify + FastAPI + 讯飞WebSocket实现方言识别
人工智能·fastapi
X journey2 小时前
机器学习进阶(15):过拟合
人工智能·机器学习
colus_SEU2 小时前
SVM 的终极视角:合页损失函数 (Hinge Loss) 与正则化
算法·机器学习·支持向量机
大连好光景2 小时前
回顾机器学习几个模型(监督+分类任务)
决策树·随机森林·机器学习·逻辑回归·svm
X journey2 小时前
机器学习进阶(14):交叉验证
人工智能·算法·机器学习
B博士3 小时前
科研进展 | JAG: 大光斑高光谱激光雷达遥感辐射传输模型从垂直视角解锁森林叶绿素分布密码
人工智能·jag·高光谱激光雷达·森林分层叶绿素诊断
Yao.Li4 小时前
PVN3D ORT CUDA Custom Ops 实现与联调记录
人工智能·3d·具身智能
诺伦4 小时前
LocalClaw 在智能制造的新机会:6部门AI+电商政策下的工厂AI升级方案
人工智能·制造