datawhale组队学习,共读ai新圣经
一、深度学习革命的核心概念
-
机器学习 vs 深度学习
- 机器学习:通过数据训练算法,替代传统手工设计规则(如分类、回归)
- 深度学习:机器学习的分支,基于神经网络,模拟人脑信息处理机制,可处理高维复杂数据(如图像、语言)
- 通用人工智能(AGI):大语言模型(如GPT-4)展现的跨任务能力被视为AGI雏形
-
关键术语对比
概念 定义 示例 监督学习 使用标注数据训练模型 皮肤癌分类、蛋白质结构预测 无监督学习 从无标注数据中发现模式 人脸图像生成 自监督学习 自动从数据中生成标签 大语言模型(预测下一个词) 迁移学习 预训练模型微调适应新任务 医疗诊断模型复用日常图像特征
二、深度学习的四大应用场景
-
医疗诊断
- 案例:黑色素瘤分类模型(准确率超专业医生)
- **技术要点:**使用迁移学习解决数据稀缺
-
蛋白质结构预测
- AlphaFold突破:通过氨基酸序列预测3D结构,误差接近实验测定水平
- 意义:加速新药研发与生物过程理解。
-
图像合成
生成式模型:如GAN、扩散模型,生成与训练数据统计特性一致的新样
-
大语言模型(LLM)
核心机制:自回归预测(根据上文生成下文),通过海量文本自监督训练。
三、教学示例:多项式拟合中的机器学习原理
误差函数:用来确定多项式系数
-
过拟合与泛化
- 问题:高阶多项式(如M=9)完美拟合训练数据但测试误差剧增。
- 根源:模型复杂度过高,拟合了噪声而非真实规律。
-
正则化技术
- 方法:在误差函数中添加权重惩罚项
- 效果:抑制系数幅值,提升泛化能力
-
模型选择与验证
- 交叉验证:将数据分为S份,轮流用S-1份训练、1份验证,避免过拟合(图1.12)。问题:模型训练成本大幅提升,与超参数结合训练成本指数级提高。
- 超参数调优:通过验证集选择最佳多项式阶数M或正则化强度λ。
四、神经网络发展简史与技术突破
-
三个阶段演进
- 单层网络(1950s-1980s):感知机受限(仅线性可分问题)。
- 反向传播(1980s-2000s):引入梯度下降与可微激活函数,训练多层网络
- 深度网络(2010s至今):GPU算力 + 大数据 + 架构创新(如残差连接)推动爆发
-
残差连接(ResNet)
原理:学习残差而非直接映射,提高深层网络训练效率。