机器学习ML-简介、数据获取、网页数据抓取

机器学习工作流程

  1. 问题构建
  2. 处理&收集数据
  3. 训练&微调模型
  4. 部署模型

其中需要在第二阶段和第四阶段进行检测

挑战

  • 模型构建问题:要聚焦于最有影响力的工业问题
  • 数据问题:高质量数据稀少
  • 训练模型:模型越来越复杂,越来越贵
  • 部署模型
  • 监控

相关角色

  • 领域专家:有商业洞察力,知道什么数据是重要的,并且在哪里找到他,识别一个机器学习模型真正的影响力
  • 数据科学家:数据挖掘,模型训练和部署的全栈
  • 机器学习专家
  • SDE软件开发工程师:开发维护大量代码,模型训练

数据获取

常用数据集

  • MNIST:手写数据集
  • ImageNet:图片搜索引擎中的百万级别的图片
  • AudioSet:youtube声音的切片
  • Kinetics:youtube视频切片
  • KITTI:交通影像数据
  • Amazon Review
  • SQuAD:维基百科的问答数据对
  • LibriSpeech:有声读物数据集

寻找途径

  • Paperswithcodes Datesets:学术数据集
  • Kaggle Datasets:数据科学家上传的ML数据集
  • Google Dateset search:搜索引擎
  • tensorflow,huggingface
  • 各类会议、竞赛
  • Open Data on AWS

网页数据抓取




相关推荐
nju_spy11 分钟前
大模型面经(一) Prompt + RAG + 微调
人工智能·面试·lora·大模型·rag·提示词工程·peft微调
学技术的大胜嗷23 分钟前
使用BatchNorm偏置填充边界:确保推理一致性与数值稳定性
人工智能·深度学习·图像生成
玩转AGI24 分钟前
【必收藏】12-Factor Agents:让大模型Agent从能跑起来到能用起来的企业级设计指南
人工智能·程序员·llm
今天也想MK代码28 分钟前
2.1.2 扩展知识:AI 语音通话
人工智能
2401_8414956438 分钟前
【计算机视觉】概述
图像处理·人工智能·计算机视觉·跟踪·模式识别·识别·视觉分析
用户51914958484542 分钟前
在AI技术唾手可得的时代,挖掘新需求成为核心竞争力——某知名计算机控制AI框架需求洞察
人工智能·aigc
2401_841495641 小时前
【计算机视觉】霍夫变换检测
图像处理·人工智能·python·opencv·算法·计算机视觉·霍夫变换
IT_陈寒1 小时前
「JavaScript 性能优化:10个让V8引擎疯狂提速的编码技巧」
前端·人工智能·后端
关关长语1 小时前
Dotnet接入AI通过Response创建一个简单控制台案例
人工智能·.net·ai dotnet
woshihonghonga2 小时前
Ubuntu20.04下的Pytorch2.7.1安装
linux·人工智能·ubuntu