机器学习-数据标注

数据标注流程图

  1. 是否有足够的数据
  2. 要改善标注还是模型
  3. 要改善标准,标准是否足够--若足够,可使用半监督学习
  4. 若标准不足,预算是否足够--若足够,可通过众包标注
  5. 预算也不足,可使用弱监督学习

半监督学习(SSL)

基于少样本量的有标注的数据和大样本量的无标注的数据

对无标注的数据做以下假设:

  • 连续性假设:这个样本与另一个样本有相似的特征,则可能有相同的标注
  • 聚类假设:数据有内在的聚类结构,聚类相同的样本可能有相同的标注
  • 流形假设:数据是在一个低维的流形上分布,可通过降维获取更干净的数据

自训练

训练模型并预测无标注的数据,保留特别置信的标注数据加入数据集,并进行迭代

主动学习(一般与自训练配合使用)

不确信采样:

选出不确信的预测,由人工标注后加入数据集

弱监督学习

半自动生成标号

数据编程:

用一些启发式方法(制定一些规律)给数据标号

  • 关键词搜索,模式匹配,第三方模型等
相关推荐
黄焖鸡能干四碗3 分钟前
智能制造工业大数据应用及探索方案(PPT文件)
大数据·运维·人工智能·制造·需求分析
高洁015 分钟前
CLIP 的双编码器架构是如何优化图文关联的?(3)
深度学习·算法·机器学习·transformer·知识图谱
世岩清上9 分钟前
乡村振兴主题展厅本土化材料运用与地域文化施工表达
大数据·人工智能·乡村振兴·展厅
工藤学编程39 分钟前
零基础学AI大模型之LangChain智能体执行引擎AgentExecutor
人工智能·langchain
图生生43 分钟前
基于AI的商品场景图批量生成方案,助力电商大促效率翻倍
人工智能·ai
说私域44 分钟前
短视频私域流量池的变现路径创新:基于AI智能名片链动2+1模式S2B2C商城小程序的实践研究
大数据·人工智能·小程序
yugi9878381 小时前
用于图像分类的EMAP:概念、实现与工具支持
人工智能·计算机视觉·分类
aigcapi1 小时前
AI搜索排名提升:GEO优化如何成为企业增长新引擎
人工智能
彼岸花开了吗1 小时前
构建AI智能体:八十、SVD知识整理与降维:从数据混沌到语义秩序的智能转换
人工智能·python·llm
MM_MS1 小时前
Halcon图像锐化和图像增强、窗口的相关算子
大数据·图像处理·人工智能·opencv·算法·计算机视觉·视觉检测