AI技术架构全局视角
一、AI/ML/DL/NLP 关系图谱
人工智能 (Artificial Intelligence)
机器学习 (Machine Learning)
深度学习 (Deep Learning)
自然语言处理
计算机视觉
语音识别
监督学习
无监督学习
强化学习
专家系统
知识表示与推理
给机器一堆数据 → 让它自动找到规律 → 以后能自己预测 / 生成
核心关系理解
| 层级 | 名称 | 一句话理解 |
|---|---|---|
| 最外层 | AI | 让机器展现智能行为的所有技术 |
| 中层 | ML | AI的子集,通过数据学习而非硬编码规则 |
| 内层 | DL | ML的子集,使用多层神经网络 |
| 应用层 | NLP | DL的一个应用方向,处理人类语言 |
后端类比:
- AI ≈ 整个后端系统
- ML ≈ 业务逻辑层(根据输入计算输出)
- DL ≈ 复杂的微服务架构(多层处理)
- NLP ≈ 特定的API服务(如翻译接口)
二、技术栈分层架构
基础层
CUDA/GPU
Python
NumPy/Pandas
框架层
PyTorch
TensorFlow
Transformers
模型层
大语言模型
GPT/LLaMA
BERT系列
专用模型
应用层
ChatGPT/Claude
智能客服
代码助手
各层详解
1. 基础层(Infrastructure)
- Python:AI领域的主流语言
- CUDA/GPU:并行计算能力,加速训练
- NumPy/Pandas:数据处理的基础库
2. 框架层(Frameworks)
- PyTorch:目前最流行,动态图,调试友好
- TensorFlow:Google出品,生产部署成熟
- Transformers:Hugging Face的模型库,调用预训练模型
3. 模型层(Models)
- 大语言模型:GPT、Claude、LLaMA等
- BERT系列:理解型任务
- 专用模型:针对特定任务优化
4. 应用层(Applications)
- 各种AI产品和服务
三、学习路径建议
阅读文档
阅读文档
阅读文档
阅读文档
阅读文档
阅读文档+代码
开始
第一步:基础概念
第二步:机器学习
第三步:深度学习
第四步:NLP
第五步:模型训练
第六步:RAG应用
大纲-整体技术架构.md
机器学习.md
深度学习.md
自然语言处理.md
模型训练.md
RAG基于langchain实现.md
学习建议
| 阶段 | 学习内容 | 时间建议 | 目标 |
|---|---|---|---|
| 1 | 基础概念 | 1天 | 建立全局认知 |
| 2 | 机器学习 | 3-5天 | 理解核心范式 |
| 3 | 深度学习 | 5-7天 | 理解神经网络 |
| 4 | NLP | 3-5天 | 理解语言模型 |
| 5 | 模型训练 | 3-5天 | 掌握训练流程 |
| 6 | RAG应用 | 持续 | 实际应用能力 |
四、核心术语速查
| 术语 | 英文 | 简单理解 |
|---|---|---|
| 模型 | Model | 一个数学函数,输入→输出 |
| 训练 | Training | 用数据调整模型参数 |
| 推理 | Inference | 用训练好的模型处理新数据 |
| 损失函数 | Loss Function | 衡量模型预测与真实值的差距 |
| 优化器 | Optimizer | 调整参数的算法 |
| 超参数 | Hyperparameter | 训练前设置的参数 |
| 批次 | Batch | 一次训练的样本数量 |
| 轮次 | Epoch | 遍历全部训练数据一次 |
| 过拟合 | Overfitting | 模型"死记硬背"训练数据 |
| 泛化 | Generalization | 模型处理未见数据的能力 |
五、后端工程师视角
AI模型 vs 传统后端服务
AI服务
输入文本
模型推理
(概率性计算)
输出结果
传统后端
HTTP请求
业务逻辑
(确定性的代码)
数据库查询
HTTP响应
关键差异
| 维度 | 传统后端 | AI服务 |
|---|---|---|
| 逻辑 | 确定性规则 | 概率性预测 |
| 输出 | 相同输入=相同输出 | 相同输入可能有不同输出 |
| 资源 | CPU为主 | GPU为主 |
| 延迟 | 通常<100ms | 可能需要数秒 |
| 调试 | 断点+日志 | 需要分析模型行为 |
| 部署 | 容器化 | 需要GPU支持 |