机器学习-数据标注

数据标注流程图

  1. 是否有足够的数据
  2. 要改善标注还是模型
  3. 要改善标准,标准是否足够--若足够,可使用半监督学习
  4. 若标准不足,预算是否足够--若足够,可通过众包标注
  5. 预算也不足,可使用弱监督学习

半监督学习(SSL)

基于少样本量的有标注的数据和大样本量的无标注的数据

对无标注的数据做以下假设:

  • 连续性假设:这个样本与另一个样本有相似的特征,则可能有相同的标注
  • 聚类假设:数据有内在的聚类结构,聚类相同的样本可能有相同的标注
  • 流形假设:数据是在一个低维的流形上分布,可通过降维获取更干净的数据

自训练

训练模型并预测无标注的数据,保留特别置信的标注数据加入数据集,并进行迭代

主动学习(一般与自训练配合使用)

不确信采样:

选出不确信的预测,由人工标注后加入数据集

弱监督学习

半自动生成标号

数据编程:

用一些启发式方法(制定一些规律)给数据标号

  • 关键词搜索,模式匹配,第三方模型等
相关推荐
zzywxc7871 天前
AI工具应用全解析:智能编码、数据标注与模型训练的协同实践
人工智能·算法·信息可视化·自动化·ai编程
CareyWYR1 天前
每周AI论文速递(250929-251003)
人工智能
da_vinci_x1 天前
设计稿秒出“热力图”:AI预测式可用性测试工作流,上线前洞察用户行为
前端·人工智能·ui·设计模式·可用性测试·ux·设计师
zezexihaha1 天前
2025 AI 落地全景:从技术热潮到产业重构
人工智能·重构
zhangfeng11331 天前
geo Counts 数据 ,机器学习 模型的外部验证 ROC外部验证数据处理流程
人工智能·机器学习·r语言·生物信息
yueyuebaobaoxinx1 天前
从 “手工作坊” 到 “智能工厂”:2025 年 AI 原生应用重构内容创作产业
人工智能·重构
Light601 天前
领码方案 | 掌控研发管理成熟度:从理论透视到AI驱动的实战进阶
人工智能·数字孪生·流程挖掘·动态优化·研发成熟度评估·ai预测
掘金安东尼1 天前
遇见 Kiro:从“爽感写代码”到“生产级落地”
人工智能·python
用户5191495848451 天前
轻松发现开放重定向漏洞:从参数到Payload的完整指南
人工智能·aigc
paopao_wu1 天前
Spring AI 从入门到实战-目录
java·人工智能·spring