1. 感知 (Perception)
让机器"看"、"听"、"读"世界。
| 技术方向 | 典型算法/模型 | 开源框架/技术栈 | 简介与用途 |
|----------------|-----------------------------------|-------------------------------------|-----------|
| 计算机视觉 (CV) | CNN(卷积神经网络)、ResNet、YOLO、EfficientNet、ViT(Vision Transformer) | OpenCV (图像处理库)、TensorFlow 、PyTorch 、MMDetection (目标检测)、Detectron2(Facebook) | 用于图像分类、目标检测、人脸识别、医学影像分析等。如YOLO用于实时物体检测,ViT将Transformer用于图像。 |
| 语音识别 (ASR) | RNN、LSTM、CTC、Transformer、Conformer | Kaldi (经典语音工具包)、DeepSpeech (Mozilla)、Wav2Vec 2.0 (Facebook)、ESPnet | 将语音信号转为文本。如Siri、智能客服的语音输入。 |
| 自然语言理解 (NLU) | Word2Vec、BERT、RoBERTa、ALBERT、DeBERTa | Hugging Face Transformers 、spaCy 、Stanford NLP 、NLTK | 理解文本语义、情感、意图。如客服机器人判断用户是"投诉"还是"咨询"。 |
2. 理解与分类/预测 (Understanding & Classification/Prediction)
对信息进行分析、归类、趋势判断。
| 技术方向 | 典型算法/模型 | 开源框架/技术栈 | 简介与用途 |
|----------------|-----------------------------------|-------------------------------------|-----------|
| 分类 | 逻辑回归、SVM、决策树、随机森林、XGBoost、LightGBM、神经网络 | Scikit-learn 、XGBoost 、LightGBM 、CatBoost | 用于垃圾邮件识别、用户画像分类、疾病诊断等。XGBoost在结构化数据中表现优异。 |
| 预测(回归/时序) | ARIMA、LSTM、GRU、Prophet(Facebook)、Transformer | Statsmodels 、Prophet 、PyTorch Forecasting 、Darts | 预测股票价格、销量、天气、设备故障时间等。LSTM擅长处理时间序列。 |
3. 搜索与推荐 (Search & Recommendation)
基于用户行为和内容匹配,提供个性化服务。
| 技术方向 | 典型算法/模型 | 开源框架/技术栈 | 简介与用途 |
|----------------|-----------------------------------|-------------------------------------|-----------|
| 信息检索 | TF-IDF、BM25、语义搜索(DPR)、向量搜索(ANN) | Elasticsearch 、Solr 、FAISS (Facebook)、Pinecone(向量数据库) | 实现关键词或语义层面的精准搜索,如电商商品搜索。 |
| 推荐系统 | 协同过滤、矩阵分解、Wide & Deep、DeepFM、双塔模型 | Surprise 、LightFM 、RecBole 、TensorFlow Recommenders | 用于电商("猜你喜欢")、视频平台(抖音、YouTube推荐)。双塔模型常用于大规模推荐。 |
4. 决策与优化 (Decision Making & Optimization)
在复杂环境中做出最优选择。
| 技术方向 | 典型算法/模型 | 开源框架/技术栈 | 简介与用途 |
|----------------|-----------------------------------|-------------------------------------|-----------|
| 强化学习 (RL) | Q-Learning、DQN、PPO、A3C、SAC、DDPG | Stable-Baselines3 、RLlib (Ray)、OpenAI Gym 、Unity ML-Agents | 用于游戏AI、机器人控制、动态定价、广告出价策略。PPO是当前最稳定的策略梯度算法之一。 |
| 运筹优化 | 线性规划、整数规划、遗传算法、模拟退火 | OR-Tools (Google)、PuLP 、CVXPY | 用于物流路径规划、排班调度、资源分配。OR-Tools支持车辆路径问题(VRP)求解。 |
5. 生成式AI (Generative AI)
创造新内容:文本、图像、音频、代码等。
| 技术方向 | 典型算法/模型 | 开源框架/技术栈 | 简介与用途 |
|----------------|-----------------------------------|-------------------------------------|-----------|
| 文本生成 | GPT系列、LLaMA、ChatGLM、T5、BART | Hugging Face Transformers 、LangChain 、Llama.cpp | 写作辅助、对话生成、代码生成。LLaMA是Meta开源的大模型。 |
| 图像生成 | GAN、Stable Diffusion、DALL·E、MidJourney(非开源) | Stable Diffusion (Stability AI)、Diffusers(Hugging Face) | 文生图、图像修复、艺术创作。Stable Diffusion可本地运行。 |
| 音频生成 | WaveNet、Tacotron、AudioLDM | TTS (Mozilla)、Bark(Suno) | 语音合成、音乐生成、音效创作。 |
| 代码生成 | Codex、StarCoder、CodeLlama | GitHub Copilot (基于Codex)、StarCoder(BigCode) | 自动补全代码、生成函数、解释代码。 |
6. 自动化与控制 (Automation & Control)
将AI"思考"转化为物理动作。
| 技术方向 | 典型算法/模型 | 开源框架/技术栈 | 简介与用途 |
|----------------|-----------------------------------|-------------------------------------|-----------|
| 机器人控制 | PID控制、强化学习、模仿学习 | ROS (机器人操作系统)、PyBullet 、MuJoCo(仿真) | 工业机器人抓取、无人机飞行控制、自动驾驶车辆控制。 |
| 工业自动化 | 异常检测、预测性维护模型 | TensorFlow Extended (TFX) 、MLflow 、Kubeflow | 在工厂中预测设备故障、优化生产流程。 |
7. 交互与协作 (Interaction & Collaboration)
实现人与AI、AI与AI之间的沟通。
| 技术方向 | 典型算法/模型 | 开源框架/技术栈 | 简介与用途 |
|----------------|-----------------------------------|-------------------------------------|-----------|
| 对话系统 | Seq2Seq、Transformer、Rasa对话管理 | Rasa 、Microsoft Bot Framework 、Dialogflow(Google) | 构建聊天机器人、客服助手、语音助手。Rasa支持本地部署。 |
| 多智能体系统 | 多智能体强化学习(MARL) | PettingZoo 、MADRL 、Ray RLlib | 多个AI协同完成任务,如无人机编队、智能交通信号控制。 |
总结:技术栈全景图
| 维度 | 核心技术栈(推荐学习) |
|------|------------------------|
| 通用基础 | Python、NumPy、Pandas、Jupyter |
| 深度学习框架 | PyTorch (研究首选)、TensorFlow/Keras(工业部署成熟) |
| 模型库 | Hugging Face Transformers(NLP/CV生成模型宝库) |
| 机器学习 | Scikit-learn 、XGBoost |
| 向量搜索 | FAISS 、Elasticsearch |
| 推荐系统 | RecBole 、TensorFlow Recommenders |
| 强化学习 | Stable-Baselines3 、RLlib |
| 机器人/仿真 | ROS 、PyBullet |
| MLOps(部署) | MLflow 、Kubeflow 、ONNX(模型转换) |
建议学习路径:
-
先掌握 Python + Scikit-learn + PyTorch/TensorFlow
-
根据兴趣方向深入:
-
-
想做NLP/生成式AI → 学 Hugging Face + Transformers
-
想做推荐系统 → 学 RecBole + 向量检索
-
想做决策AI → 学 强化学习(Stable-Baselines3)
-
想做工业落地 → 学 MLOps(MLflow, TFX)
-
这些技术和框架大多开源且社区活跃,非常适合实践和项目开发。