文章目录
-
- 本章小结
- 前言
- [1. AI 的本质:狭义人工智能才是主角](#1. AI 的本质:狭义人工智能才是主角)
- [2. 机器学习:监督学习的A→B逻辑](#2. 机器学习:监督学习的A→B逻辑)
- [3. 数据:AI的"燃料"](#3. 数据:AI的“燃料”)
- [4. 澄清几个容易被混淆的术语](#4. 澄清几个容易被混淆的术语)
- [5. AI 能做什么,不能做什么](#5. AI 能做什么,不能做什么)
- [6. 从2019到2026:哪些"做不到"已经被突破](#6. 从2019到2026:哪些“做不到”已经被突破)
- [7. 如何塑造一家真正的"AI 公司"](#7. 如何塑造一家真正的“AI 公司”)
- [8. 结合现实的几点观察](#8. 结合现实的几点观察)
本章小结
- AI目前主要指的是狭义人工智能,而非通用人工智能
- 机器学习中占据最重要位置的是监督学习------它的逻辑是找到"从A到B"的映射
- 数据是AI系统的燃料,收集数量和质量同等重要
- AI擅长"人类1秒内能完成的任务",不擅长需要逻辑和大量背景的模糊任务
- 真正的AI公司是以数据和机器学习为中心重构业务
前言
按计划,这周花了几个小时学完了吴恩达《AI for Everyone》第一周。这门课不需要科学上网,在Coursera或者B站上都能找到资源,而且全程有中文字幕,对国人来说非常友好。
很多人觉得网上铺天盖地宣传,卖课的什么都有,所以对这类课程有些抵触------其实没必要。吴恩达这门课最大的价值在于:它不是教你写代码,而是教你建立对AI的正确认知和思维。
第一周的内容核心围绕一个问题:AI 是什么?它能做什么、不能做什么?
下面是我的学习笔记,以干货为主,尽量把关键信息说透。
1. AI 的本质:狭义人工智能才是主角
吴恩达开篇就澄清了一个核心问题:我们日常谈论和使用的AI,绝大多数并不是科幻电影里那种人类级别的"通用人工智能",而是狭义人工智能(ANI,Artificial Narrow Intelligence)。AGI(通用人工智能)是指能够像人类一样理解、学习并迁移知识的AI,目前仍是科学幻想,距离实现还需要很长时间的努力。
所以,与其说AI是"机器人",不如说它是一种工具------软件算法的一个分支。AI的应用载体不只是机器人,它可以嵌入到任何一个软件系统里。
当然现在更多的指的是AGI。
2. 机器学习:监督学习的A→B逻辑
吴恩达花了不少篇幅讲机器学习 ,尤其是监督学习。
学习笔记总结:监督学习的本质,就是学习从A到B的映射关系。
用大白话讲就是:人类给机器很多配对好的"输入 A → 输出 B"的例子,机器从中找出规律。之后给定一个新的A,它就能输出对应的B。
- 输入A(邮件文本) → 输出B(0或1,1代表是垃圾邮件)
- 输入A(音频) → 输出B(对应的文字)
- 输入A(商品信息、价格、用户画像) → 输出B(是否点击)
- 输入A(图片) → 输出B(图片里有没有猫)
吴恩达指出,近些年机器学习崛起的核心原因,就是监督学习技术的突破。后面会提到的深度学习,本质上也是监督学习的一种更高级的形式。
3. 数据:AI的"燃料"
另外一个非常重要的点:没有数据,机器学习就无从谈起。数据是AI系统的"燃料"。
数据的类型分为两种:
- 结构化数据:类似数据库表格里存放的数据,数字清晰、列和行明确(比如房价、面积)
- 非结构化数据:文本、图片、音频,人类容易识别,但过去计算机难以处理------而深度学习的技术,恰好让非结构化数据的处理能力大大提升
对于咱们做后端的老手,非结构化数据其实并不陌生------平时接口里上传的图片、异步消息里的文本和语音消息,都是非结构化的典型。理解和识别这一点后,后面学习API集成时就能更好地思考业务切入点了。
关于数据收集,吴恩达提到了三个常见误区:
- 等着把数据凑完美了再做AI:不应该等数据完美后再启动,AI团队越早介入,越能指导数据收集策略
- 盲目堆数据就能解决问题:并非所有数据都有价值,需要AI团队评估哪些数据真正有用
- 忽略数据质量问题:"垃圾进,垃圾出",脏数据会毁掉任何厉害的AI模型,数据清洗非常重要
4. 澄清几个容易被混淆的术语
很多人对人工智能、机器学习、深度学习、神经网络这几个词容易混淆。它们的关系更像"同心圆":
┌─────────────────────────────────────────────────────────┐
│ 人工智能 (AI) │
│ ┌───────────────────────────────────────────────────┐ │
│ │ 机器学习 (ML) │ │
│ │ ┌─────────────────────────────────────────────┐ │ │
│ │ │ 深度学习 (Deep Learning) │ │ │
│ │ │ ≈ 神经网络 (NN) │ │ │
│ │ └─────────────────────────────────────────────┘ │ │
│ └───────────────────────────────────────────────────┘ │
└─────────────────────────────────────────────────────────┘
图形说明:此图形是对原文内容的视觉重述,并非严格意义上的数学或逻辑定义图,仅为辅助理解术语的层级概念。
- 人工智能(AI) :最大的概念,涵盖所有让机器模拟人类智能的领域。
- 机器学习(ML) :AI最重要的子领域,核心是从数据中学习规律,而非显式编程规则。
- 深度学习(Deep Learning) :机器学习的一个子集,在大部分场景下与"神经网络"基本可以互换使用。之所以叫"深度",是因为它依赖的神经网络包含了很多层(输入层、多个隐藏层、输出层),层数越多,网络就越"深"。
- 实际上,"深度学习"和"神经网络"并非严格的两个概念。深度学习指的就是训练神经网络(特别是那些规模很大、层数很深的网络)。两者之所以在现实中几乎成了同义词,是因为深度学习是当代最主流的神经网络实现方式,也是推动当今AI热潮的核心技术。
- 神经网络(Neural Networks) :深度学习的核心构建块,是一种模拟人脑神经元连接方式的计算模型。它的神奇之处在于,一旦实现并训练好,只需要输入x,就能自动输出结果,中间的复杂运算完全由网络自己完成。
还需提一下数据科学。它和机器学习本质目标不同:机器学习输出的,通常是一个可以持续给出A→B判断的软件系统;数据科学输出的,是一套洞察报告或者PPT演示,用于辅助商业决策。
5. AI 能做什么,不能做什么
吴恩达在这一部分给出了一个很实用的"经验法则":如果人类可以在一秒内凭直觉做出判断,那么AI(尤其是监督学习)很可能会表现出色。反之,如果这件事需要复杂推理、长时间思考、或者依靠大量的背景知识,AI就很难做到。
AI 能做(人类一秒内判断的事):
- 图片分类(图中是否有猫、X光片是否异常)
- 语音转文字
- 翻译(中译英、英译中)
- 简单的推荐和预测(你可能喜欢哪部电影、某个商品会不会购买)
- 垃圾邮件识别
AI 难做到的事:
- 预测股市:仅靠历史价格数据很难做到准确,因为股价随机性太强
- 复杂且模糊的意图识别:比如在嘈杂的路口理解路人的手势意图(需要的推理和背景知识太多,纯靠A→B映射很难)
- 从极少样本中学习复杂概念:人类可能看几张图就能认出一种罕见病菌,但目前的AI需要大量标注过的"正负样本"
另外,还有一个容易被忽视的点:AI不懂"常识"和"隐喻" 。说白了,AI 做的是模式匹配,而不是真正的理解。你觉得它好像会和人类聊天,实际上它只是在用大规模语料统计出最可能的回复逻辑,而不是内心真的懂了那些话的言外之意。
6. 从2019到2026:哪些"做不到"已经被突破
需要说明一点:这门视频课程是在2019年2月28日正式上线的,到2026年已经过去了七年多。吴恩达也在2026年5月推出了《AI Prompting for Everyone》新课,说明AI的使用方式已经发生了很大变化。视频中当时说"做不到"的一些事情,如今不少已经实现了。
当年认为难,现在已经实现的:
- 长上下文理解能力大爆发:当年模型只能处理几千token的短文本,现在主流模型上下文窗口普遍达到100万token以上,可以一次性分析整本书的内容
- 多模态能力从无到有:当年只能"看图说话",现在大模型普遍支持图文混合输入,部分模型甚至能做到视频生成和音频理解
- 视频生成从不可能到初具雏形:当年生成连贯、逻辑合理的视频几乎不可能,2026年的视频生成模型已经能在包含10个以上交互对象的复杂场景中将生成质量可用率提升至89%,生成3分钟电影级短片的制作周期从72小时缩短至8小时
- 复杂逻辑推理大幅提升:通过思维链(Chain-of-Thought)和强化学习等技术的引入,AI在数学推理、代码生成等任务上的表现已远超当年
- 代码生成能力:AI从写函数到写系统:吴恩达提到的AI擅长"人类1秒内能判断的事",当年代码生成基本停留在单函数实现。2026年的AI已经能够:基于注释生成完整的Java微服务模块、自动识别老旧代码的重构机会给出方案、在代码审查中提前指出逻辑缺陷和性能隐患。部分头部模型的代码生成能力已从简单函数实现扩展到复杂系统架构设计
但即使到了2026年,AI仍然存在明显的局限:
- 世界模型缺失:AI缺乏对物理世界的常识性理解。它没见过真正的物理因果,只是在文本描述中进行概率联想
- 工具使用能力薄弱:虽然已能调用API和搜索引擎,但在复杂任务中的自主规划能力依然不足,无法自主调用计算器、搜索引擎等外部工具完成多步骤目标
- 长文本性能衰减:当输入文本长度超过阈值或任务复杂度提升时,模型性能呈现断崖式下降,例如某方案宣称支持100万token,但实际超过32K后F1值下降达47%
- 幻觉问题依然存在:AI会生成看似合理但实际错误的内容。在生活化服务场景中,AI可能将网络参考案例当作既定完成结果,把文字建议等同于实际落地服务,这是当前大模型难以规避的系统性漏洞
- AI不懂"线下执行" :即便回答得再像模像样,它也只是一个文字生成引擎,不能真正帮你退票、订餐、转账------因为那些需要对接实体流程和实际权限
所以,正确理解这门课的方法应该是:先跟着视频建立清晰的概念框架和原理认知,然后把其中提到的边界条件放到2026年的当下重新评估------哪些已经被突破,哪些依然成立。原理思想是不变的,但要结合现状来分析。
7. 如何塑造一家真正的"AI 公司"
吴恩达还给出了一个大方向的指引:一家真正的AI公司,不是在自己的官网页面上打个标签叫"AI 科技企业",而是真实地用数据和机器学习来重构业务逻辑和价值模式。
他给了一个五步转型指南:
- 做试点项目:从一两个小项目入手,实战感知AI能做什么、不能做什么,以及做AI项目是什么样的体验
- 搭建公司内部的AI团队:并行给各层级员工进行AI素养培训
- 制定AI战略:在团队和认知基本到位的前提下,真正规划自己的AI发展路径
- 统一内外部沟通:确保从员工到客户再到投资人,都准确理解公司的AI战略
- 战略性地获取数据:成功的方法论做到前面四个阶段后,最终决定竞争壁垒的,就是高质量、高价值数据的沉淀和流通
8. 结合现实的几点观察
对于咱们老程序员来说,这门课第一周的内容解答了一些最底层的困惑:
AI并不神秘,也不是那种即将彻底毁灭程序员岗位的黑科技。它更像一个"高效率的预测工具" ,把一部分在当下可以用强大算力去拟合的规律,变成自动化的处理逻辑。
但它的边界同样在变化:吴恩达提到的"AI难做到的事情"清单正在快速缩短,而"能做到"的清单则在不断延长。这意味着我们既要保持学习,又不能盲目追逐热点------原理思想是稳定的框架,但具体的技术边界需要持续更新认知。
从B站那些频繁刷到的"AI焦虑课"节奏来看,大多数人其实不是被AI的进步吓到了,而是被漫天飞舞的贩卖情绪吓得每天忐忑。回到BOSS直聘,你会发现大多数普通的Java岗位,也就从去年开始才批量出现"有AI/大模型使用经验优先"的喜好,并不是立马要求造火箭。
所以,把AI当成一个需要慢慢学的新组件,按照自己的节奏逐步接触、实践一下,才是真正的应对方式,而不是怕它、躲它。