简单学习 --> 数据标注

数据标注

数据标注

大模型类似一个什么都不懂的小孩, 需要我们通过大量的 "数据" , 教会他 什么东西是什么东西

复制代码
例如: 教会大模型什么是猫,那我们就通过大量的猫的图片和大量非猫的图片,这些图片就是"答案" , 教给大模型 , 让大模型在无数次的学习中掌握 "猫的特征" , 从而学会分辨什么是猫, 什么不是猫.
而数据标注, 就是制作"答案" , 能让大模型用来学习,知道什么是对错的"答案"
为什么要进行数据标注

现在的 AI 大多采用监督学习, 没有高质量的标注数据, 那么AI会越学越脑瘫.

  1. **建立真理:**给Ai建立标准,告诉ai什么是对的什么是错的

  2. 提高AI的智商: 数据标注的质量,直接就能决定训练出来的AI有多聪明

  3. 提高AI的专业程度: 如果AI用于某个领域,那么肯定需要关于这个领域的大量的高质量的标注数据,才能让AI变得更加专业,如果是通用的数据,那么AI就不能在这个领域上表现出色

标注出来的数据给谁用

1.作为AI训练的学习素材

2.作为AI训练完后的测试集

3.作为结构化资产 (标注出来的高质量的数据,可以存入向量数据库,可以用于后面做模型微调使用)

数据标注用于哪个阶段
  1. 模型预训练阶段 : 通过海量的数据交给模型学习,这时候标注就类似于让 模型去做完形填空,这个阶段只是让模型学习到海量的知识,但是这些只是怎么用,模型是不懂的

  2. 微调阶段 : 通过 少量高质量的标注数据,让一个旧模型变成一个"新模型", 让模型在某个领域上变得更加专业了(比如: 一个能识别动物的模型,能分辨出图片是那种动物, 我们给模型进行识别猫种类的"培训" ,经过培训后,模型还是能识别动物,但是如果是猫, 模型能认出图片中的猫是什么种类的猫 )

数据标注使用

环境安装

label-studio 是目前主流的数据标注 开源方案

复制代码
1. 创建环境 (我们这里使用conda创建环境)
conda create -n label_studio1 python=3.11.0
​
conda activate label_studio_ai1
​
2. 安装依赖
pip install label-studio
​
3. 启动 label-studio
label-studio

同时这里的解释器也要选我们创建的环境

注册账号后登录

创建项目

数据标注练习

判断评论的好坏

1.创建 comments_data.json, 编码选 UTF-8

  1. 文件里添加练习数据

{"id": 1, "text": "物流很快,商品和描述一样,质量很好非常满意"}, {"id": 2, "text": "质量太差了,收到就有破损,客服也不处理"}, {"id": 3, "text": "性价比很高,做工精细,下次还会再来购买"}, {"id": 4, "text": "和图片差距太大,材质廉价,完全不值这个价"}, {"id": 5, "text": "包装严实,送货上门,使用起来很顺手推荐入手"}, {"id": 6, "text": "发货很慢,等了好多天才到,体验特别差"}, {"id": 7, "text": "整体还行,中规中矩,没有明显缺点也没惊喜"}, {"id": 8, "text": "非常喜欢,颜值高功能强,已经推荐给朋友了"}, {"id": 9, "text": "实物偏小一点,不太实用,不建议大家买"}, {"id": 10, "text": "客服态度很好,有问题都耐心解答,服务满分"}

选择导入上面的comments_data.json文件

可以看到文件导入成功,点击返回

点击Setting

在右边选择Labeling Interface, 在里面,添加View,然后点击save

View

<View>

<Text name="review_text" value="$text" granularity="sentence"/>

<Header value="请判断这条评论:属于好评还是差评"/>

<Choices name="sentiment" toName="review_text" showInLine="true">

<Choice value="好评 (Positive)" alias="pos" background="#2ecc71"/>

<Choice value="差评 (Negative)" alias="neg" background="#e74c3c"/>

</Choices>

</View>

回到刚从创建的项目,选择其中一个数据进行标注(选择是好评,还是坏评)然后点submit保存

导出数据

每个题目都标注完成后,点击右上角 Export -> 选择 JSON-MIN 格式。这就是可以直接拿去微调的数据了。

相关推荐
2601_949499941 小时前
芯瑞科技推出的400G VR4 OSFP,是专门针对智算中心,为其实现“冷静”算力而精心打造的,属于散热方面的优选产品。
人工智能·科技
YangYang9YangYan1 小时前
2026出纳岗位学习数据分析的价值
学习·数据挖掘·数据分析
智慧景区与市集主理人1 小时前
5A景区智慧建设|突破转型瓶颈!巨有科技打造高标准智慧文旅标杆
大数据·人工智能·科技
北京领雁科技1 小时前
领雁科技助力某商业银行企业手机银行数智化升级
大数据·人工智能·科技
Black蜡笔小新1 小时前
企业私有化AI训练推理一体工作站/自动化AI算法训练服务器DLTM让企业AI自主可控
服务器·人工智能·自动化
qcx231 小时前
开源首发:DocCenter — AI 时代的 HTML工作台深度解析
人工智能·开源·html
怪祝浙1 小时前
Docker和Dify下载安装
人工智能
qq_411262421 小时前
四博AI双目智能音箱方案:会说话、会眨眼、会互动,还能接入客户自己的小程序和后端
人工智能·智能音箱
鹿角片ljp1 小时前
实时目标检测部署复盘:模型没问题,现场出现框延迟和漏检
人工智能·目标检测·计算机视觉