机器学习ML-简介、数据获取、网页数据抓取

机器学习工作流程

  1. 问题构建
  2. 处理&收集数据
  3. 训练&微调模型
  4. 部署模型

其中需要在第二阶段和第四阶段进行检测

挑战

  • 模型构建问题:要聚焦于最有影响力的工业问题
  • 数据问题:高质量数据稀少
  • 训练模型:模型越来越复杂,越来越贵
  • 部署模型
  • 监控

相关角色

  • 领域专家:有商业洞察力,知道什么数据是重要的,并且在哪里找到他,识别一个机器学习模型真正的影响力
  • 数据科学家:数据挖掘,模型训练和部署的全栈
  • 机器学习专家
  • SDE软件开发工程师:开发维护大量代码,模型训练

数据获取

常用数据集

  • MNIST:手写数据集
  • ImageNet:图片搜索引擎中的百万级别的图片
  • AudioSet:youtube声音的切片
  • Kinetics:youtube视频切片
  • KITTI:交通影像数据
  • Amazon Review
  • SQuAD:维基百科的问答数据对
  • LibriSpeech:有声读物数据集

寻找途径

  • Paperswithcodes Datesets:学术数据集
  • Kaggle Datasets:数据科学家上传的ML数据集
  • Google Dateset search:搜索引擎
  • tensorflow,huggingface
  • 各类会议、竞赛
  • Open Data on AWS

网页数据抓取




相关推荐
南湖北漠1 分钟前
听说拍照的人会拿相似的鱼皮豆代替野生鹌鹑蛋拍照(防原创)
网络·人工智能·计算机网络·生活
陆业聪3 分钟前
Windsurf 深度拆解:Codeium 如何用「Flow」重新定义 AI 编程体验
ide·人工智能·ai编程
AAI机器之心7 分钟前
这个RAG框架绝了:无论多少跳,LLM只调用两次,成本暴降
人工智能·python·ai·llm·agent·产品经理·rag
xixixi777779 分钟前
安全嵌入全链路:从模型训练到智能体交互,通信网络是AI安全的“地基”
人工智能·安全·ai·多模态·数据·通信·合规
递归尽头是星辰10 分钟前
Flink 四大基石:核心原理与实战速查
大数据·人工智能·flink·实时计算
1941s14 分钟前
OpenClaw 每日新玩法 | NanoClaw —— 轻量级、安全的 OpenClaw 替代方案
人工智能·安全·agent·openclaw
攻城狮7号23 分钟前
深度解析 GPT-5.4:从“聊天对话”到“原生全能数字员工”的技术演进
人工智能·openai·智能体·gpt-5.4
NAGNIP24 分钟前
一文搞懂CNN经典架构-AlexNet!
人工智能·算法
Agent产品评测局25 分钟前
企业 AI Agent 落地,如何保障数据安全与合规?——企业级智能体安全架构与合规路径深度盘点
人工智能·安全·ai·chatgpt·安全架构
Hello.Reader26 分钟前
深度学习 三次浪潮、三大驱动力与神经科学的恩怨(二)
人工智能·深度学习