人工智能之数据分析 numpy
第一章 学习链路
文章目录
- [人工智能之数据分析 numpy](#人工智能之数据分析 numpy)
- 前言
- 一、顶层设计:理解人工智能全景图
- [1.1 什么是人工智能?](#1.1 什么是人工智能?)
- [1.2 AI 技术栈分层模型(自上而下)](#1.2 AI 技术栈分层模型(自上而下))
- [二、第一阶段:编程与数据基础(0 → 能处理真实数据)](#二、第一阶段:编程与数据基础(0 → 能处理真实数据))
- [2.1 Python 编程基础](#2.1 Python 编程基础)
- [2.2 核心数据科学库](#2.2 核心数据科学库)
- 三、第二阶段:机器学习入门(建立建模范式)
- [3.1 机器学习核心概念](#3.1 机器学习核心概念)
- [3.2 Scikit-learn 实战](#3.2 Scikit-learn 实战)
- [3.3 补充:Scipy 重点模块](#3.3 补充:Scipy 重点模块)
- 四、第三阶段:深度学习基础(进入神经网络世界)
- [4.1 选择框架:PyTorch or TensorFlow?](#4.1 选择框架:PyTorch or TensorFlow?)
- [4.2 核心概念](#4.2 核心概念)
- [4.3 实践项目(由简入繁)](#4.3 实践项目(由简入繁))
- [五、第四阶段:分方向深耕(CV / NLP)](#五、第四阶段:分方向深耕(CV / NLP))
- [六、第五阶段:大模型时代(Agent + Workflow + MCP)](#六、第五阶段:大模型时代(Agent + Workflow + MCP))
- [6.1 大模型认知升级](#6.1 大模型认知升级)
- [6.2 智能体(Agent)架构](#6.2 智能体(Agent)架构)
- [6.3 工作流与 MCP(Model Control Plane)](#6.3 工作流与 MCP(Model Control Plane))
- 七、第六阶段:部署与工程化(走向生产)
- [7.1 模型优化](#7.1 模型优化)
- [7.2 部署方案](#7.2 部署方案)
- 八、学习原则与避坑指南
- [✅ 正确路径](#✅ 正确路径)
- [❌ 常见误区](#❌ 常见误区)
- [九、总结: AI 成长路线图](#九、总结: AI 成长路线图)
- 后续
- 资料关注
前言
本文主要学习人工智能的整体链路,相当于数据分析模块的开端,学习整体思维导图,有利于更加清晰的知道后面需要学习什么,达到什么样的程度,对于单一的ai绘图短剧小说等也是当前的热门方向之一。掌握基础有利于更加灵活的创造和应用解决问题的能力。
一、顶层设计:理解人工智能全景图
1.1 什么是人工智能?
- **狭义 AI(ANI)**:在特定任务上表现优异(如图像识别、语音转文字)。
- **通用 AI(AGI)**:尚未实现,具备人类水平的泛化推理能力。
- 当前主流 AI = 数据 + 算法 + 算力 + 工程
1.2 AI 技术栈分层模型(自上而下)
┌───────────────────────────────┐
│ 应用层(智能体 / Agent) │ ← 用户交互、业务场景(如客服机器人、文生图)
├───────────────────────────────┤
│ 编排层(LangChain / MCP / Workflow) │ ← 串联模型、工具、记忆、决策逻辑
├───────────────────────────────┤
│ 大模型层(LLM / Multimodal) │ ← GPT、LLaMA、Stable Diffusion、CLIP、ViT
├───────────────────────────────┤
│ 深度学习框架(PyTorch / TensorFlow) │ ← 构建神经网络、训练/推理
├───────────────────────────────┤
│ 机器学习库(scikit-learn) │ ← 经典 ML 算法快速验证
├───────────────────────────────┤
│ 数据处理与可视化(pandas / numpy / matplotlib)│ ← 数据清洗、探索、转换
├───────────────────────────────┤
│ Python 编程基础 │ ← 语法、函数、面向对象、调试
└───────────────────────────────┘
✅ 核心理念 :
"先会用,再懂理;先跑通,再优化" ------ 从应用反推底层,形成闭环反馈式学习。
二、第一阶段:编程与数据基础(0 → 能处理真实数据)
目标:掌握 Python 及数据处理基本功,为后续建模打下坚实地基。
2.1 Python 编程基础
- 变量、条件、循环、函数
- 列表、字典、集合、元组
- 文件读写(CSV/JSON/TXT)
- 异常处理、模块导入
- 推荐资源:《Automate the Boring Stuff with Python》
2.2 核心数据科学库
| 工具 | 作用 | 关键技能 |
|---|---|---|
| NumPy | 高效数值计算 | ndarray、广播机制、矩阵运算、索引切片 |
| Pandas | 结构化数据处理 | DataFrame、缺失值处理、groupby、合并、时间序列 |
| Matplotlib / Seaborn | 数据可视化 | 散点图、直方图、箱线图、热力图、子图布局 |
📌 实践项目:
- 分析某城市空气质量数据(CSV)
- 可视化电影评分分布与票房关系
- 爬虫类企业级项目等
三、第二阶段:机器学习入门(建立建模范式)
目标:理解"特征 → 模型 → 评估 → 优化"的完整 ML 流程。
3.1 机器学习核心概念
- 监督 vs 无监督 vs 强化学习
- 过拟合 / 欠拟合 & 正则化
- 交叉验证、偏差-方差权衡
- 特征工程:标准化、编码、选择
3.2 Scikit-learn 实战
| 任务类型 | 算法示例 | 应用场景 |
|---|---|---|
| 分类 | Logistic Regression, Random Forest, SVM | 垃圾邮件识别、客户流失预测 |
| 回归 | Linear Regression, XGBoost | 房价预测、销量预测 |
| 聚类 | K-Means, DBSCAN | 用户分群、异常检测 |
🔧 关键 API 模式:
python
from sklearn.ensemble import RandomForestClassifier
model = RandomForestClassifier()
model.fit(X_train, y_train)
y_pred = model.predict(X_test)
📌 实践项目:
- 波士顿房价回归(回归)
- 鸢尾花分类(分类)
- 客户消费行为聚类(无监督)
3.3 补充:Scipy 重点模块
scipy.stats:假设检验、概率分布scipy.optimize:理解优化器原理(为深度学习铺垫)
四、第三阶段:深度学习基础(进入神经网络世界)
目标:掌握张量操作、自动求导、网络构建与训练流程。
4.1 选择框架:PyTorch or TensorFlow?
| 维度 | PyTorch | TensorFlow |
|---|---|---|
| 学习曲线 | 更 Pythonic,易调试 | 静态图复杂,但部署生态强 |
| 科研使用 | 主流(>80% 论文) | 较少 |
| 工业部署 | TorchServe, ONNX | TF Serving, TFLite, TF.js |
| 建议 :初学者首选 PyTorch |
4.2 核心概念
- Tensor:多维数组,支持 GPU 加速
- Autograd:自动微分(反向传播)
- nn.Module:网络定义标准方式
- DataLoader:高效批量加载数据
- Loss + Optimizer:MSE、CrossEntropy + Adam/SGD
4.3 实践项目(由简入繁)
- MNIST 手写数字识别(全连接网络)
- CIFAR-10 图像分类(CNN + 数据增强)
- IMDB 情感分析(RNN/LSTM)
- 猫狗分类(迁移学习 + ResNet 微调)
📌 关键能力:能独立完成"数据加载 → 模型定义 → 训练循环 → 评估保存"全流程。
五、第四阶段:分方向深耕(CV / NLP)
5.1 计算机视觉(CV)
核心技术栈:
- OpenCV:图像读取、裁剪、滤波、几何变换
- TorchVision:预训练模型(ResNet, ViT)、数据增强
- Albumentations:高性能图像增强库
典型任务与模型:
| 任务 | 模型 | 工具 |
|---|---|---|
| 图像分类 | ResNet, ViT | torchvision.models |
| 目标检测 | YOLOv8, Faster R-CNN | Ultralytics, MMDetection |
| 图像分割 | U-Net, SAM | segmentation_models_pytorch |
📌 项目建议:
- 使用 YOLOv8 实现交通标志检测
- 基于 U-Net 的医学细胞分割
5.2 自然语言处理(NLP)
核心技术栈:
- Hugging Face Transformers:BERT、GPT、T5 等模型集成
- Tokenizers:分词器(WordPiece, BPE)
- Datasets:统一数据加载接口
关键演进路径:
One-Hot → Word2Vec/GloVe → RNN/LSTM → Transformer → BERT/GPT
典型任务:
| 任务 | 模型 | 方法 |
|---|---|---|
| 文本分类 | BERT | 微调分类头 |
| 命名实体识别 | BERT+CRF | 序列标注 |
| 问答系统 | RoBERTa | SQuAD 微调 |
📌 项目建议:
- 微调
bert-base-chinese做新闻分类- 构建基于 LLaMA 的本地知识问答系统
六、第五阶段:大模型时代(Agent + Workflow + MCP)
核心转变:从"训练模型"转向"编排智能"------模型即服务(MaaS)。
6.1 大模型认知升级
- 预训练 + 微调 + 提示工程(Prompt Engineering)
- **参数高效微调(PEFT)**:LoRA、Adapter、QLoRA
- 多模态融合:CLIP(图文对齐)、Flamingo(视频 + 文本)
6.2 智能体(Agent)架构
[用户输入]
↓
[规划器 Planner] → 决定是否调用工具
↓
[工具调用] → 搜索、代码执行、数据库查询
↓
[记忆 Memory] → 向量数据库(Chroma, FAISS)
↓
[大模型推理] → LLM 生成最终回答
✅ 典型框架:LangChain、LlamaIndex、AutoGen
6.3 工作流与 MCP(Model Control Plane)
- LangChain:构建可组合的 AI 应用(Chain → Agent → Tool)
- **MCP(模型控制平面)**:
- 统一管理多个模型版本
- 控制路由策略(A/B 测试、灰度发布)
- 监控延迟、吞吐、错误率
- Workflow 引擎:Prefect、Airflow、Dagster(用于生产级 pipeline 编排)
📌 实践项目:
- 用 LangChain + LLaMA + Chroma 构建企业知识库问答机器人
- 使用 LoRA 微调 LLaMA-7B 用于产品客服对话
- 将 Stable Diffusion 集成到 Web UI,支持文生图
七、第六阶段:部署与工程化(走向生产)
7.1 模型优化
- 量化:FP32 → INT8(体积 ↓50%,速度 ↑)
- 剪枝:移除冗余权重
- 蒸馏:大模型 → 小模型(Teacher-Student)
7.2 部署方案
| 场景 | 工具 |
|---|---|
| Web API | FastAPI + Uvicorn |
| GPU 推理加速 | TensorRT, ONNX Runtime |
| 边缘设备 | TensorFlow Lite, TorchScript |
| 云原生 | KServe, Triton Inference Server |
📌 端到端项目: 将微调后的 ViT 模型 → 转为 ONNX → 部署到工业相机边缘设备 → 实时缺陷检测
八、学习原则与避坑指南
✅ 正确路径
- 先数据,后模型:80% 时间花在数据上。
- 先跑通,再优化:最小可行项目(MVP)优先。
- 一个方向深挖:先精通 NLP 或 CV,再横向扩展。
- 工具服务于问题:不要为学 API 而学,要为解决问题而学。
❌ 常见误区
- 跳过 pandas/numpy 直接学 PyTorch → 卡在数据预处理
- 同时学 PyTorch 和 TensorFlow → 精力分散
- 迷恋"从零训练大模型" → 忽略微调与应用价值
- 只看教程不动手 → 无法形成肌肉记忆
九、总结: AI 成长路线图
| 阶段 | 能力目标 |
|---|---|
| 1. 编程与数据 | 能独立清洗、分析、可视化数据 |
| 2. 机器学习 | 能完成端到端 ML 项目 |
| 3. 深度学习 | 能训练 CNN/RNN 并调参 |
| 4. CV/NLP 专精 | 能复现论文级项目 |
| 5. 大模型应用 | 能构建 Agent + 微调 + 部署 |
| 6. 工程化 | 能交付生产级 AI 系统 |
后续
部分代码已经上传至gitee,后续会逐步更新,主要受时间原因限制,当然自己也可以克隆到本地学习拓展。
祝你 coding 快乐,早日成为 Python 高手!🐍✨
资料关注
公众号:咚咚王
gitee:https://gitee.com/wy18585051844/ai_learning
《Python编程:从入门到实践》
《利用Python进行数据分析》
《算法导论中文第三版》
《概率论与数理统计(第四版) (盛骤) 》
《程序员的数学》
《线性代数应该这样学第3版》
《微积分和数学分析引论》
《(西瓜书)周志华-机器学习》
《TensorFlow机器学习实战指南》
《Sklearn与TensorFlow机器学习实用指南》
《模式识别(第四版)》
《深度学习 deep learning》伊恩·古德费洛著 花书
《Python深度学习第二版(中文版)【纯文本】 (登封大数据 (Francois Choliet)) (Z-Library)》
《深入浅出神经网络与深度学习+(迈克尔·尼尔森(Michael+Nielsen)》
《自然语言处理综论 第2版》
《Natural-Language-Processing-with-PyTorch》
《计算机视觉-算法与应用(中文版)》
《Learning OpenCV 4》
《AIGC:智能创作时代》杜雨+&+张孜铭
《AIGC原理与实践:零基础学大语言模型、扩散模型和多模态模型》
《从零构建大语言模型(中文版)》
《实战AI大模型》
《AI 3.0》