简单学习 --> 数据标注

数据标注

数据标注

大模型类似一个什么都不懂的小孩, 需要我们通过大量的 "数据" , 教会他 什么东西是什么东西

复制代码
例如: 教会大模型什么是猫,那我们就通过大量的猫的图片和大量非猫的图片,这些图片就是"答案" , 教给大模型 , 让大模型在无数次的学习中掌握 "猫的特征" , 从而学会分辨什么是猫, 什么不是猫.
而数据标注, 就是制作"答案" , 能让大模型用来学习,知道什么是对错的"答案"
为什么要进行数据标注

现在的 AI 大多采用监督学习, 没有高质量的标注数据, 那么AI会越学越脑瘫.

  1. **建立真理:**给Ai建立标准,告诉ai什么是对的什么是错的

  2. 提高AI的智商: 数据标注的质量,直接就能决定训练出来的AI有多聪明

  3. 提高AI的专业程度: 如果AI用于某个领域,那么肯定需要关于这个领域的大量的高质量的标注数据,才能让AI变得更加专业,如果是通用的数据,那么AI就不能在这个领域上表现出色

标注出来的数据给谁用

1.作为AI训练的学习素材

2.作为AI训练完后的测试集

3.作为结构化资产 (标注出来的高质量的数据,可以存入向量数据库,可以用于后面做模型微调使用)

数据标注用于哪个阶段
  1. 模型预训练阶段 : 通过海量的数据交给模型学习,这时候标注就类似于让 模型去做完形填空,这个阶段只是让模型学习到海量的知识,但是这些只是怎么用,模型是不懂的

  2. 微调阶段 : 通过 少量高质量的标注数据,让一个旧模型变成一个"新模型", 让模型在某个领域上变得更加专业了(比如: 一个能识别动物的模型,能分辨出图片是那种动物, 我们给模型进行识别猫种类的"培训" ,经过培训后,模型还是能识别动物,但是如果是猫, 模型能认出图片中的猫是什么种类的猫 )

数据标注使用

环境安装

label-studio 是目前主流的数据标注 开源方案

复制代码
1. 创建环境 (我们这里使用conda创建环境)
conda create -n label_studio1 python=3.11.0
​
conda activate label_studio_ai1
​
2. 安装依赖
pip install label-studio
​
3. 启动 label-studio
label-studio

同时这里的解释器也要选我们创建的环境

注册账号后登录

创建项目

数据标注练习

判断评论的好坏

1.创建 comments_data.json, 编码选 UTF-8

  1. 文件里添加练习数据

{"id": 1, "text": "物流很快,商品和描述一样,质量很好非常满意"}, {"id": 2, "text": "质量太差了,收到就有破损,客服也不处理"}, {"id": 3, "text": "性价比很高,做工精细,下次还会再来购买"}, {"id": 4, "text": "和图片差距太大,材质廉价,完全不值这个价"}, {"id": 5, "text": "包装严实,送货上门,使用起来很顺手推荐入手"}, {"id": 6, "text": "发货很慢,等了好多天才到,体验特别差"}, {"id": 7, "text": "整体还行,中规中矩,没有明显缺点也没惊喜"}, {"id": 8, "text": "非常喜欢,颜值高功能强,已经推荐给朋友了"}, {"id": 9, "text": "实物偏小一点,不太实用,不建议大家买"}, {"id": 10, "text": "客服态度很好,有问题都耐心解答,服务满分"}

选择导入上面的comments_data.json文件

可以看到文件导入成功,点击返回

点击Setting

在右边选择Labeling Interface, 在里面,添加View,然后点击save

View

<View>

<Text name="review_text" value="$text" granularity="sentence"/>

<Header value="请判断这条评论:属于好评还是差评"/>

<Choices name="sentiment" toName="review_text" showInLine="true">

<Choice value="好评 (Positive)" alias="pos" background="#2ecc71"/>

<Choice value="差评 (Negative)" alias="neg" background="#e74c3c"/>

</Choices>

</View>

回到刚从创建的项目,选择其中一个数据进行标注(选择是好评,还是坏评)然后点submit保存

导出数据

每个题目都标注完成后,点击右上角 Export -> 选择 JSON-MIN 格式。这就是可以直接拿去微调的数据了。

相关推荐
马***4114 小时前
适配成人英语学习痛点,打造落地性强的学习辅助方式
人工智能·学习
夜焱辰4 小时前
浏览器端 Agent 的文件版本管理:不用 Git,基于 OPFS + SQLite 自己造了一个
前端·人工智能
Ricky05535 小时前
CTRL-WORLD:一种用于机器人操控的可控生成世界模型(中美2025年联合研究)
人工智能·机器人·世界模型
jeffer_liu5 小时前
Spring AI 生产级实战:工具调用
java·人工智能·后端·spring·ai编程
lifloveyou5 小时前
table接口结构
python
阿乔外贸日记5 小时前
2026尼日利亚五项清关政策更新,拉高能源装备进口综合成本
大数据·人工智能·搜索引擎·智能手机·云计算·能源
民乐团扒谱机5 小时前
【AI笔记】短时纯音时长对音高感知偏移效应研究综述
人工智能·笔记
侃谈科技圈5 小时前
破除数据中台落地困境:2026数据治理平台差异化能力与选型决策指南
大数据·人工智能
大象说6 小时前
Python多进程共享队列无报错僵死 120G Nginx访问日志清洗踩坑全记录
人工智能·自然语言处理
Cosolar6 小时前
AutoGen 精通教程:从零到企业级多 Agent 系统架构师
人工智能·后端·面试