AI数据标注
介绍
数据标注的作用专注于人工智能领域,高品质的数据集对AI模型的效果提升要高于算法创新。能够为人工智能行业提供数据采集、数据清洗、数据标注等服务。属于模型开发的上游阶段,对于大模型公司而言,需要足够的数据去训练大模型,无论是文本、图像还是音频类的文件,都需要先经过数据标注的预处理,比如分类、拉框、注释、标记等加工处理,才能变成机器能够理解和识别的信息。
数据标注主要过程:

以上几个过程核心在于AI数据的处理。现阶段人工智能的主流学习方式以有监督、半监督、无监督的深度学习为主,有监督和半监督对于标注数据有着强依赖的需求,以下是常见数据标注的方式:
● 人工数据标注:标注结果比较可靠;
● 自动数据标注:一般需要二次复核;
● 外包数据标注:很多时候会面临数据泄密与流失风险。
数据标注的二八定律:通常在一个AI项目中,数据准备工作需要80%的时间,模型训练和部署仅占20%。数据标注的重要性不言而喻。
发展现状
90后华裔AI团队年赚7.5亿美元,ScaleAI想做AI时代的卖水人|智涌要闻
近期发布的深圳市20+8产业集群2.0版本,明确将人工智能调整为战略性新兴产业集群的一部分。
早期数据标注是一项费时费力但不具备技术含量的工作。对于很多科技公司而言,它们更倾向于将该工作外包给专业的数据标注公司,而非自己招人完成。
国外一些公司转型走AI标注的路线(例如:特斯拉裁掉200人人工标注团队),国外互联巨头都在做自动化转型。
专业机构统计全球每年生产的数据量将从2016年的16.1ZB猛增至2025年的163ZB,其中80%到90%都是非结构化数据。

国内外标注团队现状:
国外: AI数据标注巨头ScaleAI,提供各类工具、平台和服务,保持竞争力。
国内:初创公司融资加速,大厂的标注团队服尚处于服务本公司内部大模型开发使用阶段。
国内唯一AI数据标注上市公司:海天瑞声。
成本效益
从效率上来看,相比于人工标注靠大量堆砌人力,AI标注借助工具+LLM的标注方式之后,标注效率得到极大的提升。通过将不同的LLM的标注结果和基准测试中不同数据集中收纳的标准答案相比对,就能评估各个模型的标注数据的质量。
如市面上的AI标注工具Autolabel:
从准确率来看采用GPT-4进行标注时与基准真相的一致性上,获得了最高完成率--88.4%,超过了人类标注结果的86.2%。
而其他比GTP-4便宜的多的模型标注准确率,相比GPT-4来说也不算低。在比较简单的标注任务采用便宜的模型,在困难的任务中采用GPT-4,将可以大大节省标注成本
从生产成本角度看,chat-gpt的每个标注成本只有不到0.003美金,而相比传统数据标注平台便宜约20倍。
假如使用自研的科技大模型或开源模型,则无需花费此项。
技术实现
传统的数据标注工具LabelMe、VOTT需要依赖大量重复性、堆砌人力的工作。这里介绍一种目前一种做AI自动标注的方法。
Autolabel
"快100倍,成本只有人的1/7"
一家名为refuel的初创公司提供的文本标注方法,底座用的是Llama-v2-13b的基础模型,针对超过2500个独特的标记任务进行了调整、涵盖分类、实体解析、匹配、阅读理解和信息提取等类别。主要功能特性:
1、 免除编写复杂的指南,无需外部团队来提供数据支持的麻烦,用户能够在几分钟内开始标注数据。-- 高效
2、 支持在本地部署的私有模型进行本地数据处理,对于数据隐私敏感度很高的用户来说,提供了成本和门槛很低的数据标注途径。-- 易用
3、 多种数据集可使用,没有Autolabel用户可能首先要收集几千个示例,并由一组人工注释,可能需要几周时间 -- 便捷
4、 利用经历过研究证明到LLM技术来提高标签质量、例如少量学习和思维链。
实现过程:

标注数据的步骤:
● 指定一个标签,配置中使用的标签指南和LLM模型
● 通过运行agent.plan试运行以确保最终的提示正确
● 数据集标记运行agent.run得到标注结果
简单安装使用:
GitHub - refuel-ai/autolabel: Label, clean and enrich text datasets with LLMs.
安装所有必要的库:
arduino
pip install 'refuel-autolabel[openai]'
将使用一个名为Civil Comments(网络恶意言论)的数据集,该数据集可通过Autolabel获得,下载至本地,通过运行:
java
from autolabel import get_data
get_data('civil_comments')
得到种子集seeds.csv和测试集test.csv:

种子集:包含200个示例,是从训练分区中随机采样构建到,用于置信度校准和一些少量的提示任务。
测试集:包含2000个示例,采用了与种子集相同的构建方法,用于运行评估和报告所有基准测试的结果。
研究人员为数据标注员提供标注指南,要求对种子集进行标注,然后对标过的种子集进行评估,为标注员提供该数据集的基准真相作为参考,并要求他们检查自己的错误。
标签质量的衡量:
衡量标签的质量在于生成的标签(由人类或LLM标注者生成)与数据集中提供的基准真相的吻合程度。
不同数据集在不同LLM下的质量表现:

从上图可以看出:
-- 当Autolabel采用GPT-4进行标注时,平均完成度最高,在8个数据集中,有3个数据集的标注质量超过这一质量的阈值;
-- GPT-4模型95%与基准真相一致的完成率,相比之下人类标注者为86.6%;
-- 其他的模型(如gpt3.5-turbo、claude-v1)也实现了很好的性能,成功自动标注了50%的数据,但价格只有GPT-4的1/10。
to-do: 自研模型打标测评
法规遵从
从数据集角度来看,使用OA数据存在一定的法律风险,原则只能用于合法目的,明显不正当的出售或对外提供服务则不合法。在数据厂商约束范围内,正确使用就不会构成侵权。
从外部购入的论文数据理应遵循以上原则。
总结
1、 Autolabel + LLM 再结合基准数据集/测试集进行自动达标是一套成熟可用的技术方案。
2、 现阶段在AI自动标注大体还是以文本标注为主,在图片、音频以及视频标注这些工作大多还是由大量的标注员来完成。
3、 对于数据标注,包括谷歌,Anthropic在内的AI巨头和大型独角兽都在进行数据标注自动化的探索,是新质生产力也是大势所趋。
4、 自动化数据标注市场尚属于一片蓝海,也是科技大模型研究领域的基石。