文章目录
- [一、第一步 : Python 语言基础](#一、第一步 : Python 语言基础)
- [二、第二步 : 高等数学 / 概率论 / 线性代数 数学基础](#二、第二步 : 高等数学 / 概率论 / 线性代数 数学基础)
- [三、第三步 : 机器学习](#三、第三步 : 机器学习)
AI 学习路径 : Python语言 -> 微积分 / 概率论 / 线性代数 -> 机器学习 -> 深度学习 -> 机器视觉 / 自然语言处理 , 每一步都是下一步的前提 ;
自然语言处理 词向量 RNN/Transformer BERT/GPT 计算机视觉 CNN 目标检测 图像分割 GAN 深度学习 神经网络 框架使用 机器学习 经典算法 模型评估 数学基础 线性代数 微积分 概率论 基础阶段 Python语法 数据结构 常用库
一、第一步 : Python 语言基础
1、学习目标
Python 语言 是 AI 的 基石 , 该阶段需要 掌握 Python 编程能力 , 能 高效处理数据、实现算法 , 熟练使用 AI 领域必备的第三方库 , 只需要关注 " 数据科学 + 算法实现 " 即可 , 不要迷信 Python 全栈工程师 , Python 语言用于其它用途 如 Web 开发 纯属扯淡 ;
2、学习内容
① Python 语法
Python 语法 基础 :
- 环境配置 : Python 3.8+ ( 主流稳定版本 ) 、Anaconda ( 管理环境和包 ) ;
- 基础语法 : 变量 / 数据类型 ( int/float/str/list/tuple/dict/set ) 、循环 ( for/while ) 、条件判断 ( if-elif-else ) 、异常处理 ( try-except ) ;
- 函数与模块 : 自定义函数、lambda 匿名函数、模块导入 ( import ) 、包管理 ( pip ) ;
- 面向对象 : 类 ( class ) 、继承、封装 ( AI 框架源码常用,理解即可,无需深入复杂设计模式 ) ;
② Python 第三方库
Python 必备的 AI 第三方库 :
- 数据处理库 :
- NumPy : 数组 ndarray 运算、矩阵操作 ( AI 中向量 / 矩阵计算的基础 ) ;
- Pandas : 数据框 ( DataFrame ) 处理 ( 读取 CSV/Excel、缺失值填充、数据筛选 / 合并,AI 数据预处理核心 ) ;
- 可视化库 :
- Matplotlib : 基础绘图 ( 折线图、直方图、散点图,用于展示数据分布、模型效果 ) ;
- Seaborn : 封装 Matplotlib , 更美观的统计图表 ( 热力图、箱线图,用于特征相关性分析 ) ;
- 入门算法库 :
- Scikit-learn : 简单 机器学习算法实现 ( 后续机器学习阶段重点使用,此处先掌握基础调用 ) ;
③ 开发工具
Python 开发工具 :
- Jupyter Notebook ( 优先 ) : 交互式编程 , 方便调试代码、展示结果 ( AI 学习 / 实验首选 ) ;
- PyCharm ( 专业版 ) : 复杂项目开发 ( 如 : 深度学习模型训练、应用部署 ) ;
- 辅助工具 : Git ( 版本控制,管理代码 ) 、GitHub ( 存储项目 ) ;
二、第二步 : 高等数学 / 概率论 / 线性代数 数学基础
1、学习目标
学习 AI 相关的 数学基础 , 理解 AI 算法的 数学原理 , 如 : 梯度下降为何有效、神经网络如何反向传播、概率模型如何建模 , 避免 只会调包不会调参 ;
不需要学的很深 , 只需要 理解数学概念 , 数学计算过程的概念或原理 , 不需要会做数学题 , 只需要 聚焦 AI 场景下的数学应用 ;
可以不去看对应的大学数学课程 , 内容很多都与 AI 无关 , 推荐看 培训机构 录制 的 数学相关视频教程 ;
2、学习内容
① 线性代数
线性代数 : 是 AI 中最常用的数学工具 ;
- 核心概念 : 向量、矩阵、张量 ( AI 中数据的核心表示形式 )
- 核心运算 : 矩阵乘法、转置、逆矩阵、行列式、迹 ( 模型计算的基础 )
- 关键知识点 :
- 向量空间与线性组合 ( 理解特征提取的本质 )
- 特征值与特征向量 ( PCA 降维、矩阵分解的核心 )
- 奇异值分解 ( SVD , 推荐系统、图像压缩常用 )
- 范数 ( L1、L2 正则化的数学基础 , 防止过拟合 )
② 高等数学
高等数学 : 是 AI 优化的核心 ;
- 核心概念 : 函数、极限、连续性 ( 基础铺垫 )
- 关键知识点 :
- 导数与偏导数 ( 单变量 、 多变量函数的变化率 , 模型参数更新的核心 )
- 梯度 ( 多变量函数的 "斜率" , 梯度下降算法的核心 )
- 链式法则 ( 神经网络反向传播的数学基础 , 计算梯度 )
- 泰勒展开 ( 近似复杂函数 , 理解梯度下降的局部最优解 )
- 积分 ( 概率密度函数、期望计算的基础 )
② 概率论与数理统计
概率论与数理统计 : 是 AI 建模的 逻辑基础 ;
- 核心概念 : 随机变量 ( 离散 、 连续 ) 、概率、事件独立性
- 关键知识点 :
- 常见概率分布 , 二项分布 ( 分类问题 ) 、正态分布 ( 数据建模常用 ) 、泊松分布 ( 计数问题 )
- 期望、方差、协方差 ( 描述数据分布特征 , 模型评估的基础 )
- 最大似然估计 ( MLE ) 、最大后验估计 ( MAP ) ( 模型参数求解的核心方法 )
- 贝叶斯定理 ( 朴素贝叶斯、贝叶斯网络的基础 , 如垃圾邮件分类 )
- 概率图模型基础 ( 隐马尔可夫模型 HMM , 用于 NLP 的词性标注 )
三、第三步 : 机器学习
1、学习目标
掌握 机器学习 的核心思想 " 让机器从数据中学习规律 " , 理解 各类算法 的 适用场景、优缺点 , 能独立完成 " 数据预处理 -> 模型训练 -> 评估优化 " 的完整流程 ;
2、学习内容
① 机器学习基础概念
机器学习基础概念 :
- 机器学习 核心定义 : 监督学习 ( 有标签数据 ) 、无监督学习 ( 无标签数据 ) 、半监督学习、强化学习 ( 初步了解 , 后续可深入 )
- 数据集划分 : 训练集、验证集、测试集 ( 避免过拟合的基础 )
- 模型评估指标 :
- 分类任务 : 准确率、精确率、召回率、F1 分数、ROC 曲线、AUC 值 ( 应对不平衡数据 )
- 回归任务 : 均方误差 ( MSE ) 、平均绝对误差 ( MAE ) 、R² 分数 ( 拟合优度 )
- 数据预处理 : 归一化 ( Min-Max ) 、标准化 ( Z-Score ) 、缺失值填充、异常值处理、特征编码 ( One-Hot、LabelEncoder ) 、特征选择 / 降维 ( PCA、LDA )
② 监督学习算法
监督学习算法 :
- 线性模型 :
- 线性回归 ( 回归任务入门 , 理解最小二乘法、梯度下降求解 )
- 逻辑回归 ( 分类任务入门 , 理解 Sigmoid 函数、交叉熵损失 )
- 树模型与集成学习 :
- 决策树 ( 直观易懂 , 理解熵、信息增益 )
- 随机森林 ( 集成多个决策树 , 降低过拟合 )
- XGBoost/LightGBM ( 工业界常用 , 高效处理结构化数据 , Kaggle 竞赛利器 )
- 其他经典算法 :
- 支持向量机 ( SVM , 理解核函数、最大间隔分类 )
- K 近邻 ( KNN , 简单直观 , 理解距离度量 )
③ 无监督学习算法
无监督学习算法 :
- 聚类算法 :
- K-Means ( 聚类入门 , 理解质心更新、肘部法则选 K )
- DBSCAN ( 密度聚类 , 无需指定 K , 处理非球形聚类 )
- 层次聚类 ( 树状聚类 , 适合小数据集 )
- 降维算法 :
- PCA ( 主成分分析 , 线性降维 , 理解特征值分解 )
- t-SNE ( 非线性降维 , 可视化高维数据 )
- 关联规则 : Apriori 算法 ( 如购物篮分析 , 了解即可 )
④ 模型优化与调参
模型优化与调参 :
- 核心工具 : Scikit-learn ( 实现所有上述算法 , 重点掌握 API 调用与参数调优 )
- 过拟合与欠拟合 : 原因及解决方法 ( 正则化 L1/L2、Dropout、早停 Early Stopping )
- 超参数调优 : 网格搜索 ( GridSearch ) 、随机搜索 ( RandomizedSearch )
- 交叉验证 : K 折交叉验证 ( 避免数据集划分带来的偶然性 )
