深入理解SpaCy:中级指南

在初级教程中,我们介绍了SpaCy库的一些基本特性和功能。在这篇中级指南中,我们将深入学习一些更高级的特性,包括词向量、依赖性解析、和自定义组件。

一、词向量

SpaCy库支持词向量,也称为Word Vectors或Word Embeddings,这是一种使用神经网络将词语映射到多维空间的技术,词语的语义相似度可以通过它们的向量的空间距离来衡量。

加载包含词向量的模型:

python 复制代码
nlp = spacy.load('en_core_web_md')

获取词向量:

python 复制代码
tokens = nlp("dog cat banana")

for token in tokens:
    print(token.text, token.has_vector, token.vector_norm, token.is_oov)

计算词语相似度:

python 复制代码
tokens = nlp("dog cat banana")

for token1 in tokens:
    for token2 in tokens:
        print(token1.text, token2.text, token1.similarity(token2))

二、依赖性解析

依赖性解析是识别句子中各个词语之间的依赖关系的过程。SpaCy能够识别句子的句法结构,并提供了可视化的工具。

python 复制代码
from spacy import displacy

doc = nlp("This is a sentence.")
displacy.serve(doc, style='dep')

三、自定义组件

SpaCy允许你添加自定义的处理组件,这些组件将会被加入到处理管道中,你可以使用它们对文档进行各种各样的处理。

下面的例子展示了如何添加一个自定义的组件,这个组件会在每个词后面添加一个感叹号:

python 复制代码
def add_exclamation(doc):
    for token in doc:
        token.text += "!"
    return doc

nlp.add_pipe(add_exclamation, before='ner')
doc = nlp("This is a sentence.")
print([(token.text, token.ent_type_) for token in doc])

在这篇中级指南中,我们学习了SpaCy库的一些高级特性,包括词向量、依赖性解析和自定义组件。这些特性都极大的扩展了SpaCy在自然语言处理领域的应用能力。

相关推荐
财经资讯数据_灵砚智能8 小时前
基于全球经济类多源新闻的NLP情感分析与数据可视化(夜间-次晨)2026年6月10日
大数据·人工智能·python·ai·信息可视化·自然语言处理·灵砚智能
namexingyun8 小时前
拆解Fable 5三重安全护栏:模型路由、蒸馏防护与生物安全分类器的技术原理 - 微元算力(weytoken)
java·人工智能·python·安全·架构·ai编程
地铁潜行者8 小时前
加了幂等表,为什么消息重试反而不执行了?聊聊 MQ 消费幂等的边界
java·后端
chenment8 小时前
别再为每个模型单独写一套队列了:用 200 行代码封装多模态统一调用层
人工智能·python·产品
地铁潜行者8 小时前
Kafka 只发了一条消息,为什么业务侧消费了两次?
后端
文心快码BaiduComate8 小时前
提升组织级AI Coding质量:电商搜索项目实践
前端·后端·程序员
啊森要自信8 小时前
【GUI自动化测试】控件、鼠标键盘操作与多场景自动化
c语言·开发语言·python·adb·ipython
YJlio8 小时前
《Sysinternals实战指南》16.5 Ctrl2Cap 工具详解:把 Caps Lock 变成 Ctrl 的键盘改造与回退方法
linux·运维·服务器·网络·python·学习·计算机外设
某林2128 小时前
从底层硬件死锁到 QoS 通信底层的全链路复盘
python·ros2·qos
Jutick8 小时前
WebSocket 连接没断,行情却停了:如何给实时数据流加双层 watchdog?
python