Windows安装和使用Doccano标注工具

简介

开源链接:GitHub - doccano/doccano: Open source annotation tool for machine learning practitioners.

Open source annotation tool for machine learning practitioners.

Doccano是一款开源的文本标注工具,由人工智能公司Hironsan开发并在GitHub上发布。它提供了一个直观而功能强大的用户界面,使用户可以轻松地进行文本标注、数据注释和标注项目的管理。Doccano支持多种类型的标注任务,例如命名实体识别、情感分析、文本分类等。

Doccano 是Documment anotation的缩写,是一个开源的文本标注工具,我们可以用它为情感分析、命名实体识别、文本摘要、意图识别、插槽填充、图片分类等NLP任务的语料库打标签。

Doccano的特点:

  • **用户友好的界面:**Doccano的界面设计简洁直观,无需编程经验即可轻松上手。用户可以通过拖放和选择标签等方式进行标注,同时还提供了实时预览和反馈功能。
  • **多用户协作:**Doccano支持多用户协作,团队成员可以共同参与标注项目,并通过评论和讨论功能进行实时沟通和协作。
  • **自定义标签模式:**Doccano允许用户自定义标签,以适应不同的标注任务和领域需求。用户可以根据具体情况创建自己的标签集合,并为每个标签定义相应的颜色和含义。
  • **可扩展性:**Doccano是开源工具,用户可以根据需要进行自定义扩展和功能添加。此外,它支持多种数据格式的导入和导出,包括JSON、CSV等。

电脑环境

操作系统名称:Microsoft Windows 11 家庭中文版

系统类型:基于 x64 的电脑

电脑已安装了docker desktop和MinGW-w64

关于Docker安装,可以参考**:** windows安装Docker Desktop及国内镜像

MinGW 的全称是:Minimalist GNU on Windows 。它实际上是将经典的开源 C语言 编译器 GCC 移植到了 Windows 平台下,并且包含了 Win32API ,因此可以将源代码编译为可在 Windows 中运行的可执行程序。而且还可以使用一些 Windows 不具备的,Linux平台下的开发工具。更多信息可以访问MinGW官网。MinGW-w64 的代码和可执行文件被托管存储在 SourceForge 上,安装包下载访问: MinGW-w64 - for 32 and 64 bit Windows - Browse /mingw-w64/mingw-w64-release at SourceForge.net

安装和启动

根据Doccano官方介绍,给出了三种安装方式:

  • pip (Python 3.8+)
  • Docker: 通过docker pull直接拉取(下载)镜像
  • Docker Compose:从git仓库下载源码,然后指定环境变量后创建并启动容器。

我的电脑已安装了docker和MinGW-w64,所以直接用较为简单的Docker pull方式安装 Doccano镜像资源。

按照Docker方式安装,步骤如下:

注意一定是在MinGW32窗口运行,不能直接在windows命令行窗口运行,否则即使可以运行下面命令,但是无法启动容器)

(可能原因是:Windows 10 或 Windows 11 专业版或企业版支持运行 Windows 容器,但是Windows 家庭版或教育版仅支持运行 Linux 容器)

1、拉取镜像资源

docker pull doccano/doccano

2、作为一次性设置,按如下方式创建Docker容器

docker container create --name doccano \
  -e "ADMIN_USERNAME=admin" \
  -e "ADMIN_EMAIL=admin@example.com" \
  -e "ADMIN_PASSWORD=password" \
  -v doccano-db:/data \
  -p 8000:8000 doccano/doccano

3、接下来,通过运行容器启动doccano:

docker container start doccano

容器已启动,最后在浏览器运行:http://127.0.0.1:8000/

注1:如果要停止容器,请运行

docker container stop doccano-t 5

这是一种优雅停止(Graceful Shutdown)的方式,给它 5 秒的时间来完成任何必要的清理操作。如果 5 秒后容器仍未停止,Docker 将强制停止它。

注2:如果要使用最新功能,请指定nightly标签:

docker pull doccano/doccano:nightly

使用Doccano进行标注任务

进入浏览器运行:http://127.0.0.1:8000/

点击"快速开始", 会进入到登录页码:

整理的用户名和密码就是我们前面在创建docker容器时,设置的管理员参数(这里只是示例,参数值可以自行修改):

-e "ADMIN_USERNAME=admin" \

-e "ADMIN_EMAIL=admin@example.com" \

-e "ADMIN_PASSWORD=password" \

登录后,我们就可以创建项目,开展我们的标注任务了。

点击创建项目,有下面九种项目类型可以选择,填写:项目名称、描述和Tags(项目标签,它不是标注内容标签),以及勾选标注任务管理相关的选项(是否允许项目成员创建标签类型、文档按顺序还是打散排列、标注结果所有成员共享可见)。

注:如果前端页面展示全部是英文,可以点击右上角的语言选项,设置中文展示。

标注项目创建完后,我们就可以点击项目,进入到了该项目的"数据标注平台"页面。

在该页面,我们可以导入数据集、添加成员、创建或导入任务内容标签、统计和导出结果等。

总结一下,使用Doccano进行标注任务的步骤如下:

  1. 准备数据:将待标注的文本数据导入Doccano,可以是文本文件或数据集。
  2. 创建标注项目:在Doccano中创建一个新的标注项目,并定义标签集合。
  3. 标注文本:使用Doccano提供的界面工具,对文本进行标注。可以选择文本片段、标注对应的标签,并添加注释。
  4. 数据管理和导出:管理标注项目,查看已标注和未标注的文本,进行数据的导入和导出。

NOTE:doccano支持TextFile、TextLine、JSONL和CoNLL四种数据上传格式,在百度PaddleNLP的UIE(通用信息抽取)定制训练中统一使用TextLine这一文件格式,即上传的文件需要为txt格式,且在数据标注时,该文件的每一行待标注文本显示为一页内容。

上传文件:将文件拖入,点击左下角导入。

参考:

强烈推荐:数据标注平台doccano----简介、安装、使用、踩坑记录

超越传统标注方法:doccano平台提供智能化数据标注解决方案-CSDN博客

相关推荐
ZHOUPUYU4 分钟前
VMware虚拟机超详细安装Linux教程(最新版)
linux·运维·服务器·windows·微软·centos·虚拟机
Narutolxy8 分钟前
在 macOS 和 Windows 平台上使用 SVN 的完整指南20241225
windows·macos·svn
敲代码敲到头发茂密2 小时前
【大语言模型】LangChain 核心模块介绍(Memorys)
android·语言模型·langchain
dntktop3 小时前
解锁自动化新高度,zTasker v2.0全方位提升效率
运维·windows
蟾宫曲3 小时前
Node.js 工具:在 Windows 11 中配置 Node.js 的详细步骤
windows·npm·node.js·前端工具
深海的鲸同学 luvi5 小时前
【HarmonyOS NEXT】hdc环境变量配置
linux·windows·harmonyos
西西弗Sisyphus10 小时前
大型语言模型(LLMs)演化树 Large Language Models
人工智能·语言模型·自然语言处理·大模型
老大白菜11 小时前
Windows 11 安装 Dify 完整指南 非docker环境
windows·docker·容器
ue星空15 小时前
Windbg常用命令
windows
weixin_4432906919 小时前
【阅读记录-章节6】Build a Large Language Model (From Scratch)
人工智能·语言模型·自然语言处理