机器学习ML-简介、数据获取、网页数据抓取

机器学习工作流程

  1. 问题构建
  2. 处理&收集数据
  3. 训练&微调模型
  4. 部署模型

其中需要在第二阶段和第四阶段进行检测

挑战

  • 模型构建问题:要聚焦于最有影响力的工业问题
  • 数据问题:高质量数据稀少
  • 训练模型:模型越来越复杂,越来越贵
  • 部署模型
  • 监控

相关角色

  • 领域专家:有商业洞察力,知道什么数据是重要的,并且在哪里找到他,识别一个机器学习模型真正的影响力
  • 数据科学家:数据挖掘,模型训练和部署的全栈
  • 机器学习专家
  • SDE软件开发工程师:开发维护大量代码,模型训练

数据获取

常用数据集

  • MNIST:手写数据集
  • ImageNet:图片搜索引擎中的百万级别的图片
  • AudioSet:youtube声音的切片
  • Kinetics:youtube视频切片
  • KITTI:交通影像数据
  • Amazon Review
  • SQuAD:维基百科的问答数据对
  • LibriSpeech:有声读物数据集

寻找途径

  • Paperswithcodes Datesets:学术数据集
  • Kaggle Datasets:数据科学家上传的ML数据集
  • Google Dateset search:搜索引擎
  • tensorflow,huggingface
  • 各类会议、竞赛
  • Open Data on AWS

网页数据抓取




相关推荐
xcbrand14 分钟前
快消品品牌策划公司哪家好
大数据·人工智能·python
S1998_1997111609•X16 分钟前
MacOS/ˉsh(so.))os.apkair/AI
开发语言·网络·人工智能
qq_4112624221 分钟前
四博AI智能音响方案设计
人工智能
AI创界者29 分钟前
【独家解析】Ernie-Image-AIO-Rapid一键部署本地运行整合包:深度融合架构如何重塑AI绘图效率?4K超分与硬件适配全指南
人工智能·架构
KaneLogger1 小时前
设置全局智能体回复风格
人工智能
wltx16881 小时前
海外版GEO优化适合耳机出口吗?
人工智能·python
AI袋鼠帝1 小时前
作为练习两年半的OPC,我想给普通人7条真诚建议
人工智能
智慧景区与市集主理人1 小时前
露营设备租赁低效?巨有科技计时租赁系统激活五一增收新动能
大数据·人工智能
夏沫の梦1 小时前
DeepSeek V4部署:高效长上下文推理的实现详解
人工智能
code_li1 小时前
自动驾驶的调度开源软件
人工智能·机器学习·自动驾驶