► 前言:
在机器学习项目中,高质量的标注数据是训练高性能模型的基石。然而,数据标注往往是一项耗时且昂贵的工作。例如在医疗影像诊断中,一张X光片的标注需要专业医生花费数分钟,当数据集累积到成千上万张时,成本和时间会迅速攀升。
这时候,像标签工作室这样的开源标注平台便能发挥价值:它不仅提供直观的UI,支持各种数据类型,还能与机器学习模型结合,实现"先由模型预标注 → 再由人类修正"的高效率流程。
►什么是 Label Studio?
Label Studio 是由 HumanSignal, Inc. 开发的开源数据标注工具。它支持图片、文本、音频、视频及时间序列等多种数据类型,并提供灵活的界面设计与机器学习集成功能。
► 核心功能
Label Studio 之所以强大,归功于其三大核心功能:
- 多格式支持:能够处理图片、音频、文字及时间序列等多种数据格式。
- 高度定制化:通过简单的设置,打造符合项目需求的标注界面与标签。
- 机器学习整合:支持预标注(pre-labeling)与主动学习(active learning),能够与机器学习模型对接,加速标注流程。
► 支持的数据类型与应用
Label Studio 的应用范围非常广泛,涵盖各种主流的 AI 应用场景:
- 图片 (Images):图像分类、目标检测、语义分割。
- 音频 (Audio):音频文件分类、说话人识别、语音转录、情绪识别。
- 文字(Text):文件分类、命名实体识别(NER)、问答系统、情感分析。
- 时间序列 (Time Series):时间序列分类、分割、事件识别。
- 视频 (Video):视频分类、对象追踪、辅助标记。
- 多领域 (Multi-Domain):可用于对话处理、光学字符识别 (OCR) 等多格式融合的任务。
► 系统架构
Label Studio系统由四大元件组成:
- Frontend (前端):使用者操作的标注 UI,可高度客制化。
- Backend (后端):以 Django 为核心,负责项目管理、数据储存、API/Webhook。
- Task (任务):每一笔待标注的数据,以 JSON 格式储存。
- ML Backend (机器学习后端):独立服务,透过 REST API 与模型对接,提供预测。

► 实作教学:从安装到启动
1.系统需求
在安装前,请确保您的环境符合以下建议需求:
- 操作系统:Linux / Windows / macOS
- Python 3.6+
- 数据库:PostgreSQL 11.5+ 或 SQLite 3.35+
- 硬件:16 GB 内存,50 GB 存储空间
- 网络:端口8080已开启
2. 安装方式
可以选择 pip 或 Docker 进行安装。
pip 安装:
pip3 install -U label-studio
默认使用 SQLite 数据库。若要改用 PostgreSQL,需要在启动时进行设置。
Docker 安装:
docker run -it -p 8080:8080 -v $(pwd)/mydata:/label-studio/data heartexlabs/label-studio:latest
3. 项目创建与数据上传
安装并启动后,浏览器会打开 Label Studio 界面。
- 创建项目 → 填写名称和描述。
- 导入数据 → 拖拽或批量上传文件。
- 设置标注界面 → 选择模板或自行设计。
提示:预设一次最多上传 50 笔,若需更多可设定环境变量:
DATA_UPLOAD_MAX_NUMBER_FILES=1000 label-studio start


► 进阶实作:整合 YOLO ML-Backend
以 YOLO 模型为例,示范如何建立一个 ML-Backend。
建立 ML-Backend 服务
首先,复制官方的 ML-Backend 项目:
git clone https://github.com/HumanSignal/label-studio-ml-backend
cd label-studio-ml-backend/label_studio_ml/examples/yolo
使用 docker-compose 启动服务:
sudo apt install docker-compose
docker-compose up
服务会运行在 http://localhost:9090。
2. 获取访问令牌
在 Label Studio 界面右上角进入个人设置页面。
拉到最下方找到"Legacy Token",并复制你的 Access Token。
3. 连接模型
回到 Label Studio 的项目设置页面,选择"Model"标签页。
点击"Connect Model",填写模型名称,并在"Backend URL"字段输入
http://localhost:9090。
保存后,Label Studio 项目就成功与 YOLO 模型连接了。
连接成功后,可以在数据管理页面选择任务,并点击"Retrieve predictions"来获取模型的预标注结果,接着只需要在此基础上进行微调即可。


► 执行
使用ML-Backend YOLO自动标注
► 结论
Label Studio 以其开源、高度定制化和易于集成的特性,成为 AI 开发者和数据科学家的得力助手。无论是处理图片、文字还是音频数据,它都能提供一套完整且高效的解决方案,显著加速从数据准备到模型训练的整个流程。本篇博文到这里,期待下一篇博文吧。
► 问与答
Q1: Label Studio 是什么?
A1: 它是一个开源的数据标注工具,支持图片、文字、音频等多种数据类型 。
Q2: Label Studio 有哪几种安装方式?
A2: 主要有两种安装方式:使用 pip 指令安装 ,或是透过 Docker 安装 。
Q3: Label Studio 可以用来标注影片吗?
A3: 可以,它支持影片的分类、追踪与辅助标记等功能 。
Q4: 什么是 ML Backend?
A4: ML Backend 是用来对接机器学习模型的组件 ,可以提供预测结果来辅助标注 (预标注) 。
Q5: Label Studio 默认使用的网络端口是几号?
A5: 预设要求 8080 端口处于开启状态 。
► 延伸资源
本篇作者-诠鼎集团-君莫笑