简单学习 --＞数据标注

数据标注

大模型类似一个什么都不懂的小孩, 需要我们通过大量的 "数据" , 教会他什么东西是什么东西

复制代码

例如: 教会大模型什么是猫,那我们就通过大量的猫的图片和大量非猫的图片,这些图片就是"答案" , 教给大模型 , 让大模型在无数次的学习中掌握 "猫的特征" , 从而学会分辨什么是猫, 什么不是猫.
而数据标注, 就是制作"答案" , 能让大模型用来学习,知道什么是对错的"答案"

为什么要进行数据标注

现在的 AI 大多采用监督学习, 没有高质量的标注数据, 那么AI会越学越脑瘫.

**建立真理:**给Ai建立标准,告诉ai什么是对的什么是错的
提高AI的智商: 数据标注的质量,直接就能决定训练出来的AI有多聪明
提高AI的专业程度: 如果AI用于某个领域,那么肯定需要关于这个领域的大量的高质量的标注数据,才能让AI变得更加专业,如果是通用的数据,那么AI就不能在这个领域上表现出色

标注出来的数据给谁用

1.作为AI训练的学习素材

2.作为AI训练完后的测试集

3.作为结构化资产 (标注出来的高质量的数据,可以存入向量数据库,可以用于后面做模型微调使用)

数据标注用于哪个阶段

模型预训练阶段 : 通过海量的数据交给模型学习,这时候标注就类似于让模型去做完形填空,这个阶段只是让模型学习到海量的知识,但是这些只是怎么用,模型是不懂的
微调阶段 : 通过少量高质量的标注数据,让一个旧模型变成一个"新模型", 让模型在某个领域上变得更加专业了(比如: 一个能识别动物的模型，能分辨出图片是那种动物, 我们给模型进行识别猫种类的"培训" ,经过培训后,模型还是能识别动物,但是如果是猫, 模型能认出图片中的猫是什么种类的猫 )

数据标注使用

环境安装

label-studio 是目前主流的数据标注开源方案

复制代码

1. 创建环境 (我们这里使用conda创建环境)
conda create -n label_studio1 python=3.11.0

conda activate label_studio_ai1

2. 安装依赖
pip install label-studio

3. 启动 label-studio
label-studio

同时这里的解释器也要选我们创建的环境

注册账号后登录

创建项目

数据标注练习

判断评论的好坏

1.创建 comments_data.json, 编码选 UTF-8

文件里添加练习数据

${"id": 1, "text": "物流很快，商品和描述一样，质量很好非常满意"}, {"id": 2, "text": "质量太差了，收到就有破损，客服也不处理"}, {"id": 3, "text": "性价比很高，做工精细，下次还会再来购买"}, {"id": 4, "text": "和图片差距太大，材质廉价，完全不值这个价"}, {"id": 5, "text": "包装严实，送货上门，使用起来很顺手推荐入手"}, {"id": 6, "text": "发货很慢，等了好多天才到，体验特别差"}, {"id": 7, "text": "整体还行，中规中矩，没有明显缺点也没惊喜"}, {"id": 8, "text": "非常喜欢，颜值高功能强，已经推荐给朋友了"}, {"id": 9, "text": "实物偏小一点，不太实用，不建议大家买"}, {"id": 10, "text": "客服态度很好，有问题都耐心解答，服务满分"}$

选择导入上面的comments_data.json文件

可以看到文件导入成功,点击返回

点击Setting

在右边选择Labeling Interface, 在里面,添加View,然后点击save

View

<View>

<Text name="review_text" value="$text" granularity="sentence"/>

<Header value="请判断这条评论：属于好评还是差评"/>

<Choices name="sentiment" toName="review_text" showInLine="true">

<Choice value="好评 (Positive)" alias="pos" background="#2ecc71"/>

<Choice value="差评 (Negative)" alias="neg" background="#e74c3c"/>

</Choices>

</View>

回到刚从创建的项目,选择其中一个数据进行标注(选择是好评,还是坏评)然后点submit保存

导出数据

每个题目都标注完成后，点击右上角 Export -> 选择 JSON-MIN 格式。这就是可以直接拿去微调的数据了。

简单学习 --＞ 数据标注

数据标注

数据标注

为什么要进行数据标注

标注出来的数据给谁用

数据标注用于哪个阶段

数据标注使用

环境安装

数据标注练习

导出数据

简单学习 --＞数据标注