文章目录
- 1、机器学习 (Machine Learning)
- 2、深度学习 (Deep Learning)
- 3、自然语言处理 (NLP)
- 4、计算机视觉 (Computer Vision)
- 5、大语言模型应用 (LLM Apps)
- 6、方向深入
- 7、四大架构对比总结
大模型的出现标志着AI从"识别"走向"生成",从"专用"走向"通用",这是历史性的转折点。Python不仅是AI语言,更是数据科学、自动化、Web开发的全能语言。学一个Python,能做数据分析、网站后端、自动化脚本、AI模型,投入产出比极高。
1、机器学习 (Machine Learning)
让计算机从数据中学习规律,进行预测或决策。
核心库:
scikit-learn:最经典的机器学习库,包含分类、回归、聚类等算法
2、深度学习 (Deep Learning)
使用神经网络处理复杂任务,如图像识别、自然语言处理。
核心框架:
TensorFlow / Keras:Google出品的深度学习框架
PyTorch:Facebook出品,研究界更常用,灵活易用
Hugging Face Transformers:开箱即用的预训练模型(BERT、GPT等)
3、自然语言处理 (NLP)
处理和理解人类语言。
常用工具:
NLTK:经典的自然语言处理工具包
spaCy:工业级的NLP库,速度快
4、计算机视觉 (Computer Vision)
让计算机理解和处理图像、视频。
核心库:
OpenCV (cv2):图像处理和计算机视觉的基础库
PIL / Pillow:Python图像处理库
YOLO / Detectron2:目标检测框架
5、大语言模型应用 (LLM Apps)
基于GPT、文心一言等大模型开发应用。
常用框架:
LangChain:构建基于大模型的应用
OpenAI Python库:调用OpenAI的API
6、方向深入
CNN (卷积神经网络),处理图像空间结构,识别图片中的猫在哪里;基本应用:人脸识别、自动驾驶、安防监控
RNN (循环神经网络),处理时间顺序的序列化,理解一句话的前后关系;基本应用:语音识别(读懂一段话)、机器翻译、文本生成、股票预测
Transformer,处理长距离+并行,理解整篇文章的上下文,新增注意力机制;基本应用:ChatGPT、机器翻译 (Google翻译)、代码生成 (GitHub Copilot)、大语言模型 (所有LLM)
GAN (生成对抗网络),对抗性生成数据,创造高清和逼真的图片视频;基本应用:图像生成(创造不存在的人脸)、图像修复(补全残缺图片)、风格迁移(照片变梵高风格)、数据增强(生成更多训练数据)
7、四大架构对比总结
| 架构 | 核心思想 | 擅长任务 | 代表模型 | 参数量 |
|---|---|---|---|---|
| CNN | 局部特征提取 | 图像识别、目标检测 | ResNet, VGG | 百万级 |
| RNN | 序列记忆 | 语音识别、时间序列 | LSTM, GRU | 百万级 |
| Transformer | 注意力机制 | 自然语言、大模型 | BERT, GPT | 亿-万亿级 |
| GAN | 对抗生成 | 图像生成、风格迁移 | StyleGAN | 千万级 |