机器学习-数据标注

寒月霜华2025-09-16 3:01

数据标注流程图

是否有足够的数据
要改善标注还是模型
要改善标准，标准是否足够--若足够，可使用半监督学习
若标准不足，预算是否足够--若足够，可通过众包标注
预算也不足，可使用弱监督学习

半监督学习（SSL）

基于少样本量的有标注的数据和大样本量的无标注的数据

对无标注的数据做以下假设：

连续性假设：这个样本与另一个样本有相似的特征，则可能有相同的标注
聚类假设：数据有内在的聚类结构，聚类相同的样本可能有相同的标注
流形假设：数据是在一个低维的流形上分布，可通过降维获取更干净的数据

自训练

训练模型并预测无标注的数据，保留特别置信的标注数据加入数据集，并进行迭代

主动学习（一般与自训练配合使用）

不确信采样：

选出不确信的预测，由人工标注后加入数据集

弱监督学习

半自动生成标号

数据编程：

用一些启发式方法（制定一些规律）给数据标号

关键词搜索，模式匹配，第三方模型等

上一篇：实验-基本ACL

下一篇：告别双系统——WSL2+UBUNTU在WIN上畅游LINUX

热门推荐

01GitHub 镜像站点 022026年7月AI圈大地震：GPT-5.6被政府限制、Claude入驻Slack、Anthropic自研芯片 03如何新建文件夹？电脑新建文件夹的4种方法 04AI科技热点日报 | 2026年07月01日 05国内可直接用、免费额度/永久免费的大模型API清单（含 SiliconFlow、火山、阿里、智谱、百度、Kimi、DeepSeek、DMXAPI 等）06AI 编程 IDE 全景解析 2026：Agent 全面接管开发链路 07幻兽帕鲁 - 服务器管理员权限与 GM 命令完全指南 08微信历史版本含下载地址（ Windows PC | 安卓 | MAC ）及设置微信不更新 09【解构】DeepSeek V4 发布：技术报告深度解读 + 横向对比六大开源模型，我们的判断是……102026 国产 AI 大模型横评：DeepSeek、通义千问、Kimi、文心一言、星火、豆包谁更能打？