简介
开源链接:GitHub - doccano/doccano: Open source annotation tool for machine learning practitioners.
Open source annotation tool for machine learning practitioners.
Doccano是一款开源的文本标注工具,由人工智能公司Hironsan开发并在GitHub上发布。它提供了一个直观而功能强大的用户界面,使用户可以轻松地进行文本标注、数据注释和标注项目的管理。Doccano支持多种类型的标注任务,例如命名实体识别、情感分析、文本分类等。
Doccano 是Documment anotation的缩写,是一个开源的文本标注工具,我们可以用它为情感分析、命名实体识别、文本摘要、意图识别、插槽填充、图片分类等NLP任务的语料库打标签。
Doccano的特点:
- **用户友好的界面:**Doccano的界面设计简洁直观,无需编程经验即可轻松上手。用户可以通过拖放和选择标签等方式进行标注,同时还提供了实时预览和反馈功能。
- **多用户协作:**Doccano支持多用户协作,团队成员可以共同参与标注项目,并通过评论和讨论功能进行实时沟通和协作。
- **自定义标签模式:**Doccano允许用户自定义标签,以适应不同的标注任务和领域需求。用户可以根据具体情况创建自己的标签集合,并为每个标签定义相应的颜色和含义。
- **可扩展性:**Doccano是开源工具,用户可以根据需要进行自定义扩展和功能添加。此外,它支持多种数据格式的导入和导出,包括JSON、CSV等。
电脑环境
操作系统名称:Microsoft Windows 11 家庭中文版
系统类型:基于 x64 的电脑
电脑已安装了docker desktop和MinGW-w64
关于Docker安装,可以参考**:** windows安装Docker Desktop及国内镜像
MinGW 的全称是:Minimalist GNU on Windows 。它实际上是将经典的开源 C语言 编译器 GCC 移植到了 Windows 平台下,并且包含了 Win32API ,因此可以将源代码编译为可在 Windows 中运行的可执行程序。而且还可以使用一些 Windows 不具备的,Linux平台下的开发工具。更多信息可以访问MinGW官网。MinGW-w64 的代码和可执行文件被托管存储在 SourceForge 上,安装包下载访问: MinGW-w64 - for 32 and 64 bit Windows - Browse /mingw-w64/mingw-w64-release at SourceForge.net
安装和启动
根据Doccano官方介绍,给出了三种安装方式:
- pip (Python 3.8+)
- Docker: 通过docker pull直接拉取(下载)镜像
- Docker Compose:从git仓库下载源码,然后指定环境变量后创建并启动容器。
我的电脑已安装了docker和MinGW-w64,所以直接用较为简单的Docker pull方式安装 Doccano镜像资源。
按照Docker方式安装,步骤如下:
注意一定是在MinGW32窗口运行,不能直接在windows命令行窗口运行,否则即使可以运行下面命令,但是无法启动容器)
(可能原因是:Windows 10 或 Windows 11 专业版或企业版支持运行 Windows 容器,但是Windows 家庭版或教育版仅支持运行 Linux 容器)
1、拉取镜像资源
docker pull doccano/doccano
2、作为一次性设置,按如下方式创建Docker容器:
docker container create --name doccano \
-e "ADMIN_USERNAME=admin" \
-e "ADMIN_EMAIL=admin@example.com" \
-e "ADMIN_PASSWORD=password" \
-v doccano-db:/data \
-p 8000:8000 doccano/doccano
3、接下来,通过运行容器启动doccano:
docker container start doccano
容器已启动,最后在浏览器运行:http://127.0.0.1:8000/
注1:如果要停止容器,请运行
docker container stop doccano-t 5
这是一种优雅停止(Graceful Shutdown)的方式,给它 5 秒的时间来完成任何必要的清理操作。如果 5 秒后容器仍未停止,Docker 将强制停止它。
注2:如果要使用最新功能,请指定nightly标签:
docker pull doccano/doccano:nightly
使用Doccano进行标注任务
进入浏览器运行:http://127.0.0.1:8000/
点击"快速开始", 会进入到登录页码:
整理的用户名和密码就是我们前面在创建docker容器时,设置的管理员参数(这里只是示例,参数值可以自行修改):
-e "ADMIN_USERNAME=admin" \
-e "ADMIN_EMAIL=admin@example.com" \
-e "ADMIN_PASSWORD=password" \
登录后,我们就可以创建项目,开展我们的标注任务了。
点击创建项目,有下面九种项目类型可以选择,填写:项目名称、描述和Tags(项目标签,它不是标注内容标签),以及勾选标注任务管理相关的选项(是否允许项目成员创建标签类型、文档按顺序还是打散排列、标注结果所有成员共享可见)。
注:如果前端页面展示全部是英文,可以点击右上角的语言选项,设置中文展示。
标注项目创建完后,我们就可以点击项目,进入到了该项目的"数据标注平台"页面。
在该页面,我们可以导入数据集、添加成员、创建或导入任务内容标签、统计和导出结果等。
总结一下,使用Doccano进行标注任务的步骤如下:
- 准备数据:将待标注的文本数据导入Doccano,可以是文本文件或数据集。
- 创建标注项目:在Doccano中创建一个新的标注项目,并定义标签集合。
- 标注文本:使用Doccano提供的界面工具,对文本进行标注。可以选择文本片段、标注对应的标签,并添加注释。
- 数据管理和导出:管理标注项目,查看已标注和未标注的文本,进行数据的导入和导出。
NOTE:doccano支持TextFile、TextLine、JSONL和CoNLL四种数据上传格式,在百度PaddleNLP的UIE(通用信息抽取)定制训练中统一使用TextLine这一文件格式,即上传的文件需要为txt格式,且在数据标注时,该文件的每一行待标注文本显示为一页内容。
上传文件:将文件拖入,点击左下角导入。
参考: