知识图谱项目实践

SpaCy是一个自然语言处理（NLP）库和工具包，用于处理和分析文本数据。它被设计成高效、快速且易用的工具，具有许多功能，包括分词、命名实体识别、依存关系分析、文本分类等。SpaCy支持多种语言，并提供了预训练的词向量模型。它广泛用于文本挖掘、信息检索、自动化文本分类、情感分析、实体识别、机器翻译等领域。

Textacy------Text Analysis for Cybersecurity

Textacy的名称来源于"Text Analysis for Cybersecurity"（网络安全文本分析），这个名称强调了该库最初的用途，即在网络安全领域中对文本数据进行分析。然而，随着时间的推移，Textacy的功能扩展到了更广泛的自然语言处理和文本挖掘任务，包括情感分析、实体识别、主题建模等，因此它的名称也逐渐演化成了更通用的文本分析工具。

Networkx

NetworkX是一个用于创建、操作和研究复杂网络（图）的Python库。它提供了丰富的功能和工具，使用户能够轻松地构建、分析和可视化各种类型的网络，包括社交网络、网络拓扑、生物网络、交通网络等。

Dateparser

"dateparser" 是一个Python库，用于解析日期和时间字符串。它的主要功能是将各种格式的日期和时间字符串转换成Python的datetime对象，以便在程序中进行日期和时间的处理和计算。

导入库

python 复制代码

## for data
import pandas as pd  #1.1.5
import numpy as np  #1.21.0

## for plotting
import matplotlib.pyplot as plt  #3.3.2

## for text
import wikipediaapi  #0.5.8
import nltk  #3.8.1
import re

## for nlp
import spacy  #3.5.0
from spacy import displacy
import textacy  #0.12.0

## for graph
import networkx as nx  #3.0 (also pygraphviz==1.10)

## for timeline
import dateparser #1.1.7

Wikipedia-api是一个Python库，可轻松解析Wikipedia页面。我们将使用这个库来提取所需的页面，但会排除页面底部的所有"注释"和"参考文献"内容。

写出页面的名称

python 复制代码

topic = "Russo-Ukrainian War"

wiki = wikipediaapi.Wikipedia('en')
page = wiki.page(topic)
txt = page.text[:page.text.find("See also")]
txt[0:500] + " ..."

topic = "Russo-Ukrainian War"：在这一行中，定义了一个名为 topic 的变量，其中存储了要查询的维基百科主题，即 "Russo-Ukrainian War"（俄乌战争）。
wiki = wikipediaapi.Wikipedia('en')：在这一行中，创建了一个名为 wiki 的维基百科API的实例，使用了英语语言版（'en'表示英语）。
page = wiki.page(topic)：这一行使用 wiki 实例的 page 方法来获取与主题 topic 相关的维基百科页面。这将返回一个包含页面内容的对象，存储在名为 page 的变量中。
txt = page.text[:page.text.find("See also")]：这一行代码从获取的维基百科页面文本中提取了感兴趣的部分。它使用了字符串切片和 .find() 方法，首先查找文本中 "See also"（通常表示相关链接的部分）的位置，然后将文本截断到这个位置之前，从而得到了页面的一部分文本。这部分文本存储在名为 txt 的变量中。
txt[0:500] + " ..."：最后一行代码将前500个字符的文本内容提取出来，然后附加了 " ..."，以表示文本的截断。这个结果存储在 txt 变量中，它包含了从维基百科页面提取的前500个字符的内容。

自然语言处理

python 复制代码

#python -m spacy download en_core_web_sm

nlp = spacy.load("en_core_web_sm")
doc = nlp(txt)

#python -m spacy download en_core_web_sm：这是一个注释行，用于表示在终端或命令行中执行的操作。它指示用户下载spaCy的英语语言模型"en_core_web_sm"。这个模型包括了一些用于处理英语文本的语言数据和算法。
nlp = spacy.load("en_core_web_sm")：在这一行代码中，首先导入了spaCy库（前提是已经安装了spaCy库）。然后，使用spacy.load()函数加载了之前下载的英语语言模型"en_core_web_sm"。加载后的模型被存储在名为nlp的变量中，以便后续对文本数据进行处理。
doc = nlp(txt)：在这一行代码中，使用已加载的模型nlp对文本数据txt进行处理。nlp(txt)将文本数据传递给已加载的模型，返回一个Doc对象，其中包含了对文本进行了分词、词性标注、命名实体识别等自然语言处理任务的结果。这个Doc对象存储了文本的各种信息，可以用于进一步的文本分析和处理。

看SpaCy将文本分成了多少个句子：

python 复制代码

lst_docs = [sent for sent in doc.sents]
print("tot sentences:", len(lst_docs))

lst_docs = [sent for sent in doc.sents]：这一行代码使用了列表推导式（List Comprehension）来遍历doc对象中的每个句子，并将它们存储在一个名为lst_docs的列表中。列表推导式的语法是[expression for item in iterable]，在这里，expression是用于生成列表元素的表达式，item是迭代的每个元素，iterable是要迭代的对象。因此，这行代码遍历doc.sents，它是doc对象中句子的一个生成器（generator） ，并将每个句子添加到lst_docs列表中。

词性标注

即用适当的语法标签标记句子中的每个单词的过程

可能标记的完整列表

ADJ: 形容词，例如big，old，green，incomprehensible，first
ADP: 介词，例如in，to，during
ADV: 副词，例如very，tomorrow，down，where，there
AUX: 助动词，例如is，has（done），will（do），should（do）
CONJ: 连词，例如and，or，but
CCONJ: 并列连词，例如and，or，but
DET: 限定词，例如a，an，the
INTJ: 感叹词，例如psst，ouch，bravo，hello
NOUN: 名词，例如girl，cat，tree，air，beauty
NUM: 数词，例如1，2017，one，seventy-seven，IV，MMXIV
PART: 助词，例如's，not
PRON: 代词，例如I，you，he，she，myself，themselves，somebody
PROPN: 专有名词，例如Mary，John，London，NATO，HBO
PUNCT: 标点符号，例如.，（，），？
SCONJ: 从属连词，例如if，while，that
SYM: 符号，例如$，%，§，©，+，-，×，÷，=，:)，表情符号
VERB: 动词，例如run，runs，running，eat，ate，eating
X: 其他，例如sfpksdpsxmsa
SPACE: 空格

依存句法分析（Dependency Parsing，DEP）

模型还会尝试理解单词对之间的关系。

可能的标签完整列表

ACL：作为名词从句的修饰语
ACOMP：形容词补语
ADVCL：状语从句修饰语
ADVMOD：状语修饰语
AGENT：主语中的动作执行者
AMOD：形容词修饰语
APPOS：同位语
ATTR：主谓结构中的谓语部分
AUX：助动词
AUXPASS：被动语态中的助动词
CASE：格标记
CC：并列连词
CCOMP：从句补足语
COMPOUND：复合修饰语
CONJ：连接词
CSUBJ：主语从句
CSUBJPASS：被动语态中的主语从句
DATIVE：与双宾语动词相关的间接宾语
DEP：未分类的依赖
DET：限定词
DOBJ：直接宾语
EXPL：人称代词
INTJ：感叹词
MARK：标记
META：元素修饰语
NEG：否定修饰语
NOUNMOD：名词修饰语
NPMOD：名词短语修饰语
NSUBJ：名词从句主语
NSUBJPASS：被动语态中的名词从句主语
NUMMOD：数字修饰语
OPRD：宾语补足语
PARATAXIS：并列结构
PCOMP：介词的补足语
POBJ：介词宾语
POSS：所有格修饰语
PRECONJ：前置连词
PREDET：前置限定词
PREP：介词修饰语
PRT：小品词
PUNCT：标点符号
QUANTMOD：量词修饰语
RELCL：关系从句修饰语
ROOT：句子主干
XCOMP：开放性从句补足语

实例理解POS与DEP

python 复制代码

i = 3
list_docs[3]

检查 NLP 模型预测的 POS 和 DEP 标签

python 复制代码

for token in lst_docs[i]:
    print(token.text, "-->", "pos: "+token.pos_, "|", "dep: "+token.dep_, "")

token.text：token对象的text属性表示词汇的原始文本内容，即单词或标点符号的字符串。
"-->"：这部分代码只是一个字符串，用于分隔词汇信息的不同部分，以便输出更易读。
"pos: "+token.pos_：token对象的pos_属性表示词汇的词性（Part-of-Speech，POS）。该部分将词汇的词性标签添加到输出中，例如："pos: NOUN" 表示名词。
"|"：这部分代码只是一个字符串，用于分隔不同词汇信息。
"dep: "+token.dep_：token对象的dep_属性表示词汇与句子中其他词汇的依存关系。该部分将词汇的依存关系标签添加到输出中，例如："dep: nsubj" 表示名词主语。

可视化注释

SpaCy提供了一个图形工具来可视化这些注释

python 复制代码

from spacy import displacy

displacy.render(lst_docs[i], style="dep", options={"distance":100})

**displacy.render(lst_docs[i], style="dep", options={"distance":100})：**这是用于渲染句子依存关系图的函数调用。它包括以下参数：

lst_docs[i]：这是要可视化的文本数据，通常是一个Doc对象，或者在这里是句子的Doc对象，表示要可视化的句子。
style="dep"：这个参数指定了可视化的样式。在这里，我们选择了"dep"，表示依存关系图。
options={"distance":100}：这是一个字典参数，用于配置可视化选项。在这里，我们设置了"distance"参数，以控制词汇之间的水平距离。较大的距离可以使图更易于阅读。您可以根据需要自定义其他可视化选项。

最重要的标记是动词 ( POS=VERB )，因为它是句子中含义的词根 ( DEP=ROOT )。
助词，如副词和副词 ( POS=ADV/ADP )，通常作为修饰语 ( *DEP=mod ) 与动词相关联，因为它们可以修饰动词的含义。例如，" travel to "和" travel from "具有不同的含义，即使词根相同（" travel "）。
在与动词相连的单词中，必须有一些名词（POS=PROPN/NOUN ）作为句子的主语和宾语（ *DEP=nsubj/obj ）。
名词通常位于形容词 ( POS=ADJ ) 附近，作为其含义的修饰语 ( DEP=amod )。例如，在"好人 "和"坏人"中，形容词赋予名词_"人"相反的含义。

Spacy还可执行命名实体识别

可能的所有标签的完整列表

人名: 包括虚构人物。
国家、宗教或政治团体：民族、宗教或政治团体。
地点：建筑、机场、高速公路、桥梁等。
公司、机构等：公司、机构等。
地理位置：国家、城市、州。
地点：非国家地理位置，山脉、水域等。
产品：物体、车辆、食品等（不包括服务）。
事件：命名飓风、战斗、战争、体育赛事等。
艺术作品：书籍、歌曲等的标题。
法律：成为法律的指定文件。
语言：任何命名的语言。
日期：绝对或相对日期或期间。
时间：小于一天的时间。
百分比：百分比，包括"%"。
货币：货币价值，包括单位。
数量：衡量重量或距离等。
序数： "第一"，"第二"等。
基数：不属于其他类型的数字。

python 复制代码

for ent in lst_docs[i].ents:
    print(tag.text, f"({tag.label_})")

print(tag.text, f"({tag.label_})")：在每次迭代中，使用 print() 函数打印每个实体的文本内容和实体类型标签。

tag.text：这是实体对象的 text 属性，表示实体的原始文本内容。
f"({tag.label_})"：这是一个格式化字符串，用于将实体的类型标签添加到输出中。在字符串中使用了f开头的字符串字面值，它允许在字符串中插入表达式，这里插入了实体的类型标签，标签位于括号中。
花括号 {} 在格式化字符串中用于表示占位符，可以在运行时将变量或表达式的值插入到字符串中。

在spaCy中，实体（命名实体）对象通常包含两个重要的属性：ent.text 和 ent.label_，它们分别表示实体的文本内容和实体类型标签。

Spacy图形工具

python 复制代码

displacy.render(lst_docs[i], style="ent")

实体和关系抽取

对于每个句子，我们将提取主语和宾语以及它们的修饰语、复合词和它们之间的标点符号。

python 复制代码

## extract entities and relations
dic = {"id":[], "text":[], "entity":[], "relation":[], "object":[]}

for n,sentence in enumerate(lst_docs):
    lst_generators = list(textacy.extract.subject_verb_object_triples(sentence))  
    for sent in lst_generators:
        subj = "_".join(map(str, sent.subject))
        obj  = "_".join(map(str, sent.object))
        relation = "_".join(map(str, sent.verb))
        dic["id"].append(n)
        dic["text"].append(sentence.text)
        dic["entity"].append(subj)
        dic["object"].append(obj)
        dic["relation"].append(relation)


## create dataframe
dtf = pd.DataFrame(dic)

## example
dtf[dtf["id"]==i]

构建图表

网络图

Python标准库中用于创建和操作图网络的是NetworkX。我们可以从整个数据集开始创建图形，但如果节点太多，可视化将变得混乱：

python 复制代码

## create full graph
G = nx.from_pandas_edgelist(dtf, source="entity", target="object", 
                            edge_attr="relation", 
                            create_using=nx.DiGraph())


## plot
plt.figure(figsize=(15,10))

pos = nx.spring_layout(G, k=1)
node_color = "skyblue"
edge_color = "black"

nx.draw(G, pos=pos, with_labels=True, node_color=node_color, 
        edge_color=edge_color, cmap=plt.cm.Dark2, 
        node_size=2000, connectionstyle='arc3,rad=0.1')

nx.draw_networkx_edge_labels(G, pos=pos, label_pos=0.5, 
                         edge_labels=nx.get_edge_attributes(G,'relation'),
                         font_size=12, font_color='black', alpha=0.6)
plt.show()

G = nx.from_pandas_edgelist(dtf, source="entity", target="object", edge_attr="relation", create_using=nx.DiGraph())：这行代码使用 NetworkX 库创建了一个有向图（DiGraph）。具体解释如下：
nx.from_pandas_edgelist(dtf, source="entity", target="object", edge_attr="relation", create_using=nx.DiGraph()) ：这个函数将 Pandas 数据帧 dtf 转换为一个有向图。在有向图中，实体作为节点，关系作为有向边，而 "entity" 列和 "object" 列包含了节点之间的连接，"relation" 列包含了边的属性（关系）。
plt.figure(figsize=(15,10))：这行代码创建一个新的图形画布，指定了画布的大小为 15x10 像素。
pos = nx.spring_layout(G, k=1)：这行代码使用 NetworkX 的 spring_layout 函数布局图形中的节点位置，其中 G 是创建的有向图。k=1 控制了节点之间的相互排斥力，影响图形的布局。
node_color 和 edge_color：这两行代码定义了节点和边的颜色。
nx.draw(...)：这个函数用于绘制图形。以下是参数的含义：
G：要绘制的图形。
pos=pos：节点位置的布局。
with_labels=True：是否显示节点的标签。
node_color=node_color：节点的颜色。
edge_color=edge_color：边的颜色。
cmap=plt.cm.Dark2：用于定义节点颜色映射的颜色映射。
nx.draw_networkx_edge_labels(...)：这个函数用于在图形上绘制边的标签。以下是参数的含义：
pos=pos：节点位置的布局。
label_pos=0.5：标签相对于边的位置。
edge_labels=nx.get_edge_attributes(G,'relation')：从图中获取边的属性（关系）作为标签。
font_size=12：标签的字体大小。
font_color='black'：标签的字体颜色。
alpha=0.6：标签的透明度。
plt.show()：这行代码用于显示绘制好的图形。

知识图谱可以让我们从大局的角度看到所有事物的相关性，但是如果直接看整张图就没有什么用处。因此，最好根据我们所需的信息应用一些过滤器。对于这个例子，我将只选择涉及最常见实体的部分（基本上是最多连接的节点）：

先找出最多连接的节点

python 复制代码

dtf["entity"].value_counts().head()

然后进行过滤操作并进行可视化

python 复制代码

## filter
f = "Russia"
tmp = dtf[(dtf["entity"]==f) | (dtf["object"]==f)]


## create small graph
G = nx.from_pandas_edgelist(tmp, source="entity", target="object", 
                            edge_attr="relation", 
                            create_using=nx.DiGraph())


## plot
plt.figure(figsize=(15,10))

pos = nx.spring_layout(G, k=0.5)
node_color = ["red" if node==f else "skyblue" for node in G.nodes]
edge_color = ["red" if edge[0]==f else "black" for edge in G.edges]

nx.draw(G, pos=pos, with_labels=True, node_color=node_color, 
        edge_color=edge_color, cmap=plt.cm.Dark2, 
        node_size=800, node_shape="o", width=1.0, connectionstyle='arc3,rad=0.1', font_size=8)

nx.draw_networkx_edge_labels(G, pos=pos, label_pos=0.5, 
                        edge_labels=nx.get_edge_attributes(G,'relation'),
                        font_size=8, font_color='black', alpha=0.6)
plt.show()

对于Ukraine的效果图