【问题解决】Label Studio上传文件数量超限解决方案

文章目录

  • 问题背景
  • 解决方法
    • [一、 使用外部存储同步](#一、 使用外部存储同步)
      • [1、 准备图片目录](#1、 准备图片目录)
      • [2、 配置Label Studio环境](#2、 配置Label Studio环境)
      • [3、在Label Studio界面中连接存储](#3、在Label Studio界面中连接存储)
    • 二、调整上传限制(备选方案)

问题背景

在Python环境中使用Label Studio,并且有8000张图片需要处理,遇到了上传限制的问题。这个问题的核心是Label Studio的默认设置无法单次处理这么多文件。

解决方法

一、 使用外部存储同步

这是处理大量数据的标准方法。它的原理是不通过浏览器上传,而是让Label Studio直接从一个你指定的本地文件夹里读取图片。

步骤如下:

1、 准备图片目录

将你的8000张图片集中放在一个文件夹里,例如 D:/my_labeling_project/images

2、 配置Label Studio环境

在于启动Label Studio前,设置两个环境变量。

  • LABEL_STUDIO_LOCAL_FILES_SERVING_ENABLED=true:启用本地文件服务。

  • LABEL_STUDIO_LOCAL_FILES_DOCUMENT_ROOT:指定你图片文件夹的上一级或上两级路径 。如:D:/

    # 这里路径指定数据目录的上一级,这样导入其他数据的时候不用重新指定,直接将新数据放在和该数据路径平级的位置即可

在启动你的Python环境(如Jupyter Notebook)或运行Python脚本之前,在终端中执行以下命令:

在Windows命令提示符中:

plain 复制代码
set LABEL_STUDIO_LOCAL_FILES_SERVING_ENABLED=true
set LABEL_STUDIO_LOCAL_FILES_DOCUMENT_ROOT=D:/

在Linux/macOS的终端中:

bash 复制代码
export LABEL_STUDIO_LOCAL_FILES_SERVING_ENABLED=true
export LABEL_STUDIO_LOCAL_FILES_DOCUMENT_ROOT=/my_labeling_project 

设置完毕后,再启动初始化Label Studio。

plain 复制代码
label-studio start

3、在Label Studio界面中连接存储

  • 新建项目,进入你的项目,点击 Settings > Cloud Storage

  • 点击 Add Source Storage ,选择 Local Files

  • 在配置页面中,Absolute local path 一栏填写数据所在文件夹的完整路径(例如 D:\my_labeling_project\images)。点击 Check Connection 测试连接,成功后会变成Connection Verified ,链接失败则可能是路径填写错误。
  • 之后点击next, 选择Import Method为导入的文件类型Files ,FileName filter 这里选择文件后缀,我们导入图片,因此选择Images。之后点击【Load Preview】,自动查找对应的文件类型。

  1. 数据预览加载结果:之后点击next。
  • 同步数据 :添加成功后,点击 Safe&Sync 按钮进行同步。同步时,建议不要进行数据标注操作 ,因为这可能会导致同步中断。

导入结果:

二、调整上传限制(备选方案)

如果外部存储方案遇到困难,你也可以尝试直接修改上传限制。

  1. 找到配置文件 :这通常是位于Label Studio配置目录下的 settings.py 文件。

  2. 修改参数:在配置文件中找到并修改以下参数:

    python 复制代码
    # 提高单次上传文件数量的上限
    DATA_UPLOAD_MAX_NUMBER_FILES = 10000  # 设置为一个大于8000的值
    
    #或者在Windows命令提示符中:
    set DATA_UPLOAD_MAX_NUMBER_FILES = 10000  # 设置为一个大于8000的值
  1. 重启服务 :修改配置后,务必重启Label Studio服务 才能使更改生效。
相关推荐
知乎的哥廷根数学学派17 小时前
面向可信机械故障诊断的自适应置信度惩罚深度校准算法(Pytorch)
人工智能·pytorch·python·深度学习·算法·机器学习·矩阵
且去填词17 小时前
DeepSeek :基于 Schema 推理与自愈机制的智能 ETL
数据仓库·人工智能·python·语言模型·etl·schema·deepseek
人工干智能17 小时前
OpenAI Assistants API 中 client.beta.threads.messages.create方法,兼谈一星*和两星**解包
python·llm
databook17 小时前
当条形图遇上极坐标:径向与圆形条形图的视觉革命
python·数据分析·数据可视化
阿部多瑞 ABU18 小时前
`chenmo` —— 可编程元叙事引擎 V2.3+
linux·人工智能·python·ai写作
acanab18 小时前
VScode python插件
ide·vscode·python
知乎的哥廷根数学学派19 小时前
基于生成对抗U-Net混合架构的隧道衬砌缺陷地质雷达数据智能反演与成像方法(以模拟信号为例,Pytorch)
开发语言·人工智能·pytorch·python·深度学习·机器学习
WangYaolove131419 小时前
Python基于大数据的电影市场预测分析(源码+文档)
python·django·毕业设计·源码
知乎的哥廷根数学学派19 小时前
基于自适应多尺度小波核编码与注意力增强的脉冲神经网络机械故障诊断(Pytorch)
人工智能·pytorch·python·深度学习·神经网络·机器学习
cnxy18820 小时前
Python爬虫进阶:反爬虫策略与Selenium自动化完整指南
爬虫·python·selenium