机器学习-数据标注

数据标注流程图

  1. 是否有足够的数据
  2. 要改善标注还是模型
  3. 要改善标准,标准是否足够--若足够,可使用半监督学习
  4. 若标准不足,预算是否足够--若足够,可通过众包标注
  5. 预算也不足,可使用弱监督学习

半监督学习(SSL)

基于少样本量的有标注的数据和大样本量的无标注的数据

对无标注的数据做以下假设:

  • 连续性假设:这个样本与另一个样本有相似的特征,则可能有相同的标注
  • 聚类假设:数据有内在的聚类结构,聚类相同的样本可能有相同的标注
  • 流形假设:数据是在一个低维的流形上分布,可通过降维获取更干净的数据

自训练

训练模型并预测无标注的数据,保留特别置信的标注数据加入数据集,并进行迭代

主动学习(一般与自训练配合使用)

不确信采样:

选出不确信的预测,由人工标注后加入数据集

弱监督学习

半自动生成标号

数据编程:

用一些启发式方法(制定一些规律)给数据标号

  • 关键词搜索,模式匹配,第三方模型等
相关推荐
Ztopcloud极拓云视角13 分钟前
ChatGPT超级应用改版技术解析:Codex集成架构与多模型路由实战
人工智能·chatgpt·架构
秋96 小时前
从 Python 后端工程师转型 AI Engineer(AI 工程化)的完整补课清单(2026实战版)
开发语言·人工智能·python
啦啦啦_99997 小时前
5. 迁移学习
人工智能·机器学习·迁移学习
A.说学逗唱的Coke7 小时前
【AI·Coding】TDD × SDD × AI Coding:从“测试驱动“到“规范驱动“的智能协作实践
人工智能·驱动开发·tdd
云烟成雨TD7 小时前
Spring AI Alibaba 1.x 系列【78】沙箱(Sandbox)
java·人工智能·spring
tq10867 小时前
基于SLIP的防幻觉的指南
人工智能
甲维斯8 小时前
Kimi版超级玛丽效果“惊人”,配额不足5厘米!
前端·人工智能
console.log('npc')8 小时前
AI前端工程与生成式UI学习路线
前端·人工智能·ui
秋99 小时前
3年经验Python后端转AI Engineer:3个月实战转型计划(2026版)
开发语言·人工智能·python
圣殿骑士-Khtangc9 小时前
GPT-5.5 技术深度解析与企业级生产落地实战:从幻觉率下降到百万Token工程化
人工智能·gpt