机器学习ML-简介、数据获取、网页数据抓取

机器学习工作流程

  1. 问题构建
  2. 处理&收集数据
  3. 训练&微调模型
  4. 部署模型

其中需要在第二阶段和第四阶段进行检测

挑战

  • 模型构建问题:要聚焦于最有影响力的工业问题
  • 数据问题:高质量数据稀少
  • 训练模型:模型越来越复杂,越来越贵
  • 部署模型
  • 监控

相关角色

  • 领域专家:有商业洞察力,知道什么数据是重要的,并且在哪里找到他,识别一个机器学习模型真正的影响力
  • 数据科学家:数据挖掘,模型训练和部署的全栈
  • 机器学习专家
  • SDE软件开发工程师:开发维护大量代码,模型训练

数据获取

常用数据集

  • MNIST:手写数据集
  • ImageNet:图片搜索引擎中的百万级别的图片
  • AudioSet:youtube声音的切片
  • Kinetics:youtube视频切片
  • KITTI:交通影像数据
  • Amazon Review
  • SQuAD:维基百科的问答数据对
  • LibriSpeech:有声读物数据集

寻找途径

  • Paperswithcodes Datesets:学术数据集
  • Kaggle Datasets:数据科学家上传的ML数据集
  • Google Dateset search:搜索引擎
  • tensorflow,huggingface
  • 各类会议、竞赛
  • Open Data on AWS

网页数据抓取




相关推荐
腾讯云开发者9 小时前
港科大熊辉|AI时代的职场新坐标——为什么你应该去“数据稀疏“的地方?
人工智能
工程师老罗9 小时前
YoloV1数据集格式转换,VOC XML→YOLOv1张量
xml·人工智能·yolo
Coder_Boy_10 小时前
技术让开发更轻松的底层矛盾
java·大数据·数据库·人工智能·深度学习
啊森要自信10 小时前
CANN ops-cv:面向计算机视觉的 AI 硬件端高效算子库核心架构与开发逻辑
人工智能·计算机视觉·架构·cann
2401_8362358610 小时前
中安未来SDK15:以AI之眼,解锁企业档案的数字化基因
人工智能·科技·深度学习·ocr·生活
njsgcs10 小时前
llm使用 AgentScope-Tuner 通过 RL 训练 FrozenLake 智能体
人工智能·深度学习
董董灿是个攻城狮10 小时前
AI 视觉连载2:灰度图
人工智能
yunfuuwqi11 小时前
OpenClaw✅真·喂饭级教程:2026年OpenClaw(原Moltbot)一键部署+接入飞书最佳实践
运维·服务器·网络·人工智能·飞书·京东云
九河云11 小时前
5秒开服,你的应用部署还卡在“加载中”吗?
大数据·人工智能·安全·机器学习·华为云