机器学习-数据标注

数据标注流程图

  1. 是否有足够的数据
  2. 要改善标注还是模型
  3. 要改善标准,标准是否足够--若足够,可使用半监督学习
  4. 若标准不足,预算是否足够--若足够,可通过众包标注
  5. 预算也不足,可使用弱监督学习

半监督学习(SSL)

基于少样本量的有标注的数据和大样本量的无标注的数据

对无标注的数据做以下假设:

  • 连续性假设:这个样本与另一个样本有相似的特征,则可能有相同的标注
  • 聚类假设:数据有内在的聚类结构,聚类相同的样本可能有相同的标注
  • 流形假设:数据是在一个低维的流形上分布,可通过降维获取更干净的数据

自训练

训练模型并预测无标注的数据,保留特别置信的标注数据加入数据集,并进行迭代

主动学习(一般与自训练配合使用)

不确信采样:

选出不确信的预测,由人工标注后加入数据集

弱监督学习

半自动生成标号

数据编程:

用一些启发式方法(制定一些规律)给数据标号

  • 关键词搜索,模式匹配,第三方模型等
相关推荐
StfinnWu2 分钟前
论文阅读《GridDehazeNet: Attention-Based Multi-Scale Network for Image Dehazing》
论文阅读·深度学习·机器学习
所 爱3 分钟前
【重磅更新】Cursor Pro 会员独享功能上线!支持 Claude 4.5,智能编码再升级!
人工智能
Swift社区9 分钟前
AI 时代,应用入口正在消失
人工智能
free_7312 分钟前
超越“回答”,AI Agent迎来全链路安全治理挑战
人工智能·python·网络安全
召田最帅boy13 分钟前
SpringBoot实现AI智能评论审核与自动回复
人工智能·spring boot·后端·架构
德育处主任13 分钟前
『n8n』If组件的用法
人工智能·aigc·工作流引擎
菩提树下的凡夫24 分钟前
激光应用1---影响激光光斑大小和功率密度的因素
人工智能
AI-Ming28 分钟前
注意力机制拓展-大模型知识点(程序员转行AI大模型学习)
人工智能·学习
Mintopia29 分钟前
agent-cli 哪家强?别只看“能跑”,要看“能交付”
人工智能
kishu_iOS&AI32 分钟前
PyCharm 结合 uv 进行 AI 大模型开发
人工智能·pycharm·大模型·uv