简单学习 --> 数据标注

数据标注

数据标注

大模型类似一个什么都不懂的小孩, 需要我们通过大量的 "数据" , 教会他 什么东西是什么东西

复制代码
例如: 教会大模型什么是猫,那我们就通过大量的猫的图片和大量非猫的图片,这些图片就是"答案" , 教给大模型 , 让大模型在无数次的学习中掌握 "猫的特征" , 从而学会分辨什么是猫, 什么不是猫.
而数据标注, 就是制作"答案" , 能让大模型用来学习,知道什么是对错的"答案"
为什么要进行数据标注

现在的 AI 大多采用监督学习, 没有高质量的标注数据, 那么AI会越学越脑瘫.

  1. **建立真理:**给Ai建立标准,告诉ai什么是对的什么是错的

  2. 提高AI的智商: 数据标注的质量,直接就能决定训练出来的AI有多聪明

  3. 提高AI的专业程度: 如果AI用于某个领域,那么肯定需要关于这个领域的大量的高质量的标注数据,才能让AI变得更加专业,如果是通用的数据,那么AI就不能在这个领域上表现出色

标注出来的数据给谁用

1.作为AI训练的学习素材

2.作为AI训练完后的测试集

3.作为结构化资产 (标注出来的高质量的数据,可以存入向量数据库,可以用于后面做模型微调使用)

数据标注用于哪个阶段
  1. 模型预训练阶段 : 通过海量的数据交给模型学习,这时候标注就类似于让 模型去做完形填空,这个阶段只是让模型学习到海量的知识,但是这些只是怎么用,模型是不懂的

  2. 微调阶段 : 通过 少量高质量的标注数据,让一个旧模型变成一个"新模型", 让模型在某个领域上变得更加专业了(比如: 一个能识别动物的模型,能分辨出图片是那种动物, 我们给模型进行识别猫种类的"培训" ,经过培训后,模型还是能识别动物,但是如果是猫, 模型能认出图片中的猫是什么种类的猫 )

数据标注使用

环境安装

label-studio 是目前主流的数据标注 开源方案

复制代码
1. 创建环境 (我们这里使用conda创建环境)
conda create -n label_studio1 python=3.11.0
​
conda activate label_studio_ai1
​
2. 安装依赖
pip install label-studio
​
3. 启动 label-studio
label-studio

同时这里的解释器也要选我们创建的环境

注册账号后登录

创建项目

数据标注练习

判断评论的好坏

1.创建 comments_data.json, 编码选 UTF-8

  1. 文件里添加练习数据

{"id": 1, "text": "物流很快,商品和描述一样,质量很好非常满意"}, {"id": 2, "text": "质量太差了,收到就有破损,客服也不处理"}, {"id": 3, "text": "性价比很高,做工精细,下次还会再来购买"}, {"id": 4, "text": "和图片差距太大,材质廉价,完全不值这个价"}, {"id": 5, "text": "包装严实,送货上门,使用起来很顺手推荐入手"}, {"id": 6, "text": "发货很慢,等了好多天才到,体验特别差"}, {"id": 7, "text": "整体还行,中规中矩,没有明显缺点也没惊喜"}, {"id": 8, "text": "非常喜欢,颜值高功能强,已经推荐给朋友了"}, {"id": 9, "text": "实物偏小一点,不太实用,不建议大家买"}, {"id": 10, "text": "客服态度很好,有问题都耐心解答,服务满分"}

选择导入上面的comments_data.json文件

可以看到文件导入成功,点击返回

点击Setting

在右边选择Labeling Interface, 在里面,添加View,然后点击save

View

<View>

<Text name="review_text" value="$text" granularity="sentence"/>

<Header value="请判断这条评论:属于好评还是差评"/>

<Choices name="sentiment" toName="review_text" showInLine="true">

<Choice value="好评 (Positive)" alias="pos" background="#2ecc71"/>

<Choice value="差评 (Negative)" alias="neg" background="#e74c3c"/>

</Choices>

</View>

回到刚从创建的项目,选择其中一个数据进行标注(选择是好评,还是坏评)然后点submit保存

导出数据

每个题目都标注完成后,点击右上角 Export -> 选择 JSON-MIN 格式。这就是可以直接拿去微调的数据了。

相关推荐
火山引擎开发者社区8 小时前
火山AgentPlan/CodingPlan同步上线GLM-5.2
人工智能
冬奇Lab9 小时前
Skill 系列(05):Skill 工作流串联——4 种模式实测,并发加速 1.5x
人工智能·开源
冬奇Lab10 小时前
每日一个开源项目(第141篇):hiring-agent - HackerRank 开源了他们的简历评分系统,你的简历能得几分?
人工智能·面试·开源
甲维斯10 小时前
又升级咯!坦克大战2026,科技与复古并存!
前端·人工智能·游戏开发
姗姗来迟了12 小时前
用React Hook封装AI对话状态
人工智能
Goodbye12 小时前
从 Token 到 Embedding:LLM 核心基础深度解析
javascript·人工智能
阿瑞IT12 小时前
AI Agent 在甘特计划变更场景中的动态响应工程实践
人工智能
用户9385156350712 小时前
工具调用背后:LLM 如何突破“缸中大脑”,操控真实世界?
javascript·人工智能