Doccano工具安装教程/文本标注工具/文本标注自己的项目/NLP分词器工具/自然语言处理必备工具/如何使用文本标注工具

这篇文章是专门的安装教程,后续的项目创建,如何使用,以及代码部分可以参考这篇文章:

NER实战:(NLP实战/命名实体识别/文本标注/Doccano工具使用/关键信息抽取/Token分类/源码解读/代码逐行解读)_会害羞的杨卓越的博客-CSDN博客

1、安装说明

doccano是documment anotation的缩写,是一个开源的文本标注工具,我们可以用它为NLP任务的语料库进行打标。

Doccano是一个非常好用的开源工具,用起来很方便,安装也不麻烦。

首先不要着急去查百度,在github就有安装说明。

安装说明:

  • pip (Python 3.8+)
  • Docker
  • Docker Compose

pip (Python 3.8+),要求Python环境是3.8以上,但是如果你深度学习环境一套都是3.8以下的,你新建一个python环境就行了,这个工具就只需要标注文本,标注的时候切换到Doccano环境就行了。

2、安装doccano

在prompt中cd到python环境的scripts文件夹(每个conda的python环境都有一个script文件夹)中,如果不知道自己的scripts文件夹在哪儿参考一下我的:

python 复制代码
C:\Users\Alex\anaconda3\envs\NER\Scripts

看我的是在这里,我自己新建了一个NER的python环境:

在prompt界面进行操作:

​ 安装指令:

python 复制代码
pip install doccano

如果安装太慢,就使用清华镜像:

python 复制代码
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple doccano

3、相关参数设置

安装完成后,进行初始化操作:

python 复制代码
# Initialize database.
doccano init

设置用户名和密码:

python 复制代码
# Create a super user.
doccano createuser --username admin --password pass

设置用户名密码的时候,自己一定要记得,如果你没改的话,就是默认的账号名为admin,密码就是pass了,这个账号密码就是是存在云端的。

接着设置服务器端口:

python 复制代码
# Start a web server.
doccano webserver --port 8000

这是打开端口成功的界面:

这步做完后,一定要

再打开一个prompt命令窗口,再次cd到scripts文件夹

再打开一个prompt命令窗口,再次cd到scripts文件夹

再打开一个prompt命令窗口,再次cd到scripts文件夹

然后执行以下指令启动服务:

python 复制代码
# Start the task queue to handle file upload/download.
doccano task

启动成功的页面

4、使用doccano

服务启动成功后,进入这个地址打开:

http://127.0.0.1:8000/

打开后的页面是这样:

到这里doccano的安装与设置就结束了。

点击右上角进行登录,登录的账号和密码就是前面你自己设置的。

登录后点击开始进入这个页面

到了这里就可以开始创建自己的项目了,你已经完成了doccano文本标注工具的构建。

陆续更新中,有用的话拜托点赞收藏哦。

后续的项目创建,以及如何进行分词,中文分词,请参考这篇文章:

NER实战:(NLP实战/命名实体识别/文本标注/Doccano工具使用/关键信息抽取/Token分类/源码解读/代码逐行解读)_会害羞的杨卓越的博客-CSDN博客

我的主页还有许多其他非常有价值的NLP内容

Transformer提出文章论文精读:

Transformer:《Attention is all you need》(论文精读/原理解析/模型架构解读/源码解析/相关知识点解析/相关资源提供)_会害羞的杨卓越的博客-CSDN博客

Transformer解读:

Transformer算法解读(self-Attention/位置编码/多头注意力/掩码机制/QKV/Transformer堆叠/encoder/decoder)_会害羞的杨卓越的博客-CSDN博客

Hugging Face实战:

Hugging Face实战(NLP实战/Transformer实战/预训练模型/分词器/模型微调/模型自动选择/PyTorch版本/代码逐行解析)上篇之模型调用_会害羞的杨卓越的博客-CSDN博客

bert系列算法

BERT系列算法解读:(RoBERTa/ALBERT/DistilBERT/Transformer/Hugging Face/NLP/预训练模型/模型蒸馏)_会害羞的杨卓越的博客-CSDN博客

包括一些大方向的内容:

深度学习五大基本网络_常用深度学习网络_会害羞的杨卓越的博客-CSDN博客
机器学习算法(全教程/全解析/源码全解/实战教程)_会害羞的杨卓越的博客-CSDN博客
人工智能的分类:机器学习/专家系统/推荐系统/知识图谱/强化学习/迁移学习/特征工程/模式识别_会害羞的杨卓越的博客-CSDN博客

计算机视觉:

openCV基础教程_会害羞的杨卓越的博客-CSDN博客

陆续更新中,有用的话拜托点赞收藏哦。

相关推荐
MichaelIp6 小时前
大模型高级工程师实践 - 将课程内容转为音频
人工智能·gpt·ai·语言模型·自然语言处理·aigc·音视频
MichaelIp8 小时前
大模型高级工程师实践 - 将课程内容转为视频
人工智能·python·自然语言处理·langchain·prompt·aigc·音视频
Watermelo61712 小时前
DeepSeek:全栈开发者视角下的AI革命者
人工智能·深度学习·神经网络·机器学习·语言模型·自然语言处理·transformer
L_cl16 小时前
【NLP 20、Encoding编码 和 Embedding嵌入】
nlp·embedding
G.E.N.18 小时前
本地Ollama部署DeepSeek R1模型接入Word
开发语言·人工智能·深度学习·nlp·word·deepseek
winner888118 小时前
走向基于大语言模型的新一代推荐系统:综述与展望
人工智能·语言模型·自然语言处理·llm·推荐系统
FF-Studio18 小时前
深入浅出:旋转变位编码(RoPE)在现代大语言模型中的应用
人工智能·深度学习·机器学习·语言模型·自然语言处理
AI趋势预见19 小时前
FinRobot:一个使用大型语言模型的金融应用开源AI代理平台
人工智能·神经网络·学习·语言模型·自然语言处理·金融
weixin_307779132 天前
自然语言生成(NLG)算法模型评估方案的硬件配置、系统架构设计、软件技术栈、实现流程和关键代码
人工智能·算法·自然语言处理·系统架构
山海青风2 天前
OpenAI 实战进阶教程 - 第六节: OpenAI 与爬虫集成实现任务自动化
运维·人工智能·爬虫·python·自动化·nlp·beautifulsoup