【拥抱AI】沉浸式体验SpaCy开源分词器

本节分享一下SpaCy的学习过程,感兴趣的小伙伴可以接着往下看,最后会附上测试代码和源码地址,如有认知错误的地方,还请批评指正,谢谢。

SpaCy的安装和下载

SpaCy是一个开源的Python自然语言处理库,可以通过pip进行安装:

复制代码
pip install spacy

安装完成后,需要下载相应的语言模型,例如英语模型:

复制代码
python -m spacy download en_core_web_sm

或者可以直接从GitHub上下载模型的压缩包,并在本地进行安装。

SpaCy的使用

使用SpaCy进行文本处理的基本步骤包括导入库、加载模型,并对文本进行处理。例如:

python 复制代码
import spacy
nlp = spacy.load('en_core_web_sm')
text = "Apple is looking at buying U.K. startup for $1 billion"
doc = nlp(text)

如果需要使用中文分词,则需要额外下载zh_core_web_sm包,然后再加载才不会报错。

下载前可以先校验升级一下spacy。

复制代码
python -m spacy validate

python -m spacy download zh_core_web_sm
nlp = spacy.load('zh_core_web_sm')

处理后的文档对象doc可以用来获取词性标注、命名实体识别等信息。

SpaCy的主要功能

SpaCy提供了一系列自然语言处理功能,包括:

  • 词性标注(Part-of-Speech Tagging)
  • 命名实体识别(Named Entity Recognition, NER)
  • 依存句法分析(Dependency Parsing)
  • 词向量计算(Word Vectors)
  • 文本分类
  • 实体链接
  • 文本生成等

SpaCy的技术特点

  • 高性能:使用Cython和C++编写,提供快速的文本处理能力。
  • 易于使用:提供简洁的API接口,便于开发者快速上手。
  • 多语言支持:提供多种语言的预训练模型。
  • 模型扩展性:支持自定义模型和组件,便于根据特定需求调整模型。
  • 基于Transformer的模型:引入了基于Transformer的管道,支持多任务学习,提高了模型的扩展性和灵活性。

SpaCy的应用场景

  • 文本分类
  • 情感分析
  • 信息提取
  • 机器翻译
  • 问答系统
  • 聊天机器人

SpaCy的适用范围

SpaCy适用于需要高效文本处理和分析的各种应用,尤其是在工业级应用中,它能够处理大量文本数据,并提供准确的分析结果。

SpaCy支持的文档格式

SpaCy主要支持Python编程语言,并通过其库提供对文本数据的处理功能。它不直接处理特定的文档格式,而是处理字符串形式的文本数据。在实际应用中,可以将各种文档格式(如TXT、PDF、CSV等)中的文本内容提取出来,然后使用SpaCy进行进一步的自然语言处理。

下面是学习使用demo代码,仅供参考

复制代码
import spacy
from spacy.tokenizer import Tokenizer
import re


# 加载预训练的模型
nlp = spacy.load('zh_core_web_sm') # 中文模型 zh_core_web_sm, 英文模型 en_core_web_sm


# 定义自定义分割规则
custom_infixes = ['#(.*?)#']

infix_re = spacy.util.compile_infix_regex(nlp.Defaults.infixes)
#print(infix_re)

# 创建一个新的Tokenizer实例,使用自定义规则
custom_tokenizer = Tokenizer(nlp.vocab, infix_finditer=infix_re.finditer)

# 将自定义Tokenizer应用到spaCy管道中
nlp.tokenizer = custom_tokenizer

# 定义处理文本的函数
def process_text(text):
    # 使用模型处理文本
    doc = nlp(text)
    print(doc)
    # 打印处理后的信息
    for token in doc:
        print(f'Token: {token.text}, Lemma: {token.lemma_}, POS: {token.pos_}, Tag: {token.tag_}, Dependency: {token.dep_}')


# 读取文件并处理每一行
def process_file(file_path):
    with open(file_path, 'r', encoding='utf-8') as file:
        for line in file:
            process_text(line.strip())
                

# 调用函数处理文件
file_path = '1.md' # 目标文件
process_file(file_path)

SpaCy的官方文档提供了详细的安装指南、使用说明和教程,可以帮助我们更好地了解和使用该库。

源码地址:https://github.com/explosion/spaCy

相关推荐
霍格沃兹测试学院-小舟畅学3 小时前
接口自动化测试的下一个十年:从脚本到Skills,让AI学会“如何测”
java·前端·人工智能
暴躁小师兄数据学院3 小时前
【AI大模型应用开发工程师特训笔记】第04讲(第10章):Python 高阶编程
人工智能
T_Wang_Lab3 小时前
跨领域语义漂移的双视角量化框架:基于知识图谱邻居的Jaccard方法与跨域对齐的Word2Vec方法的系统比较与联合诊断
人工智能·知识图谱·word2vec
Cx330❀3 小时前
【Qt 核心机制篇】深度解析 Qt 信号与槽(Signals & Slots)机制:从底层原理、实战演练到 Lambda 进阶
linux·开发语言·c++·人工智能·qt·ubuntu
碳基硅坊3 小时前
从“几何缩微“到“时间缩微“ 华为韬定律开启芯片演进新赛道
人工智能·韬定律·时间缩微
霸道流氓气质3 小时前
Spring AI Alibaba 学习路线图:从入门到精通
人工智能·学习·spring
Wonderful U3 小时前
Django+Python后端实战|AI智能图像去水印系统:基于OpenCV+大模型实现无损图片水印消除
人工智能·python·django
清 澜3 小时前
基于 LangChain 从零搭建知识库问答系统
人工智能·职场和发展·大模型·agent·知识库
Engineer邓祥浩3 小时前
宏观认知(二):AI项目落地与团队协作——吴恩达《AI for Everyone》Week2学习笔记
人工智能·笔记·学习
sali-tec3 小时前
C# 基于OpenCv的视觉工作流-章79-单位转换
图像处理·人工智能·opencv·算法·计算机视觉