机器学习工作流程
- 问题构建
- 处理&收集数据
- 训练&微调模型
- 部署模型
其中需要在第二阶段和第四阶段进行检测
挑战
- 模型构建问题:要聚焦于最有影响力的工业问题
- 数据问题:高质量数据稀少
- 训练模型:模型越来越复杂,越来越贵
- 部署模型
- 监控
相关角色
- 领域专家:有商业洞察力,知道什么数据是重要的,并且在哪里找到他,识别一个机器学习模型真正的影响力
- 数据科学家:数据挖掘,模型训练和部署的全栈
- 机器学习专家
- SDE软件开发工程师:开发维护大量代码,模型训练
数据获取
常用数据集
- MNIST:手写数据集
- ImageNet:图片搜索引擎中的百万级别的图片
- AudioSet:youtube声音的切片
- Kinetics:youtube视频切片
- KITTI:交通影像数据
- Amazon Review
- SQuAD:维基百科的问答数据对
- LibriSpeech:有声读物数据集
寻找途径
- Paperswithcodes Datesets:学术数据集
- Kaggle Datasets:数据科学家上传的ML数据集
- Google Dateset search:搜索引擎
- tensorflow,huggingface
- 各类会议、竞赛
- Open Data on AWS
网页数据抓取