Graph2NLP浅谈

图技术

利用neo4j、networkx、dgl、python做图分析挖掘

【1】最短路径算法dijkstra
【2】基于networkx的隐性集团关系识别模型
【3】基于Neo4j的担保社群型态分析挖掘
【4】基于python求有向无环图中target到其他节点全路径
【5】有向图中任意两点的路径
【6】图基础入门
【7】知识图谱快速入门
【8】基于graphsage的欺诈用户风险识别


Graph2NLP浅谈

前言

主要是把图数据 转化为文本 的实践和尝试,后续应用于实际的业务场景中。图数据来源于基于graphsage的欺诈用户风险识别 中的graph.bin ,自然语言处理手段主要来源于基于word2vec的word相似度 中的word2vec


一、构图

使用一个小图,举例说明如何进行转换,下图包含6个节点与6条关系。
企业0 企业1 企业2 企业3 企业4 企业5

利用dgl进行构图,代码如下。

python 复制代码
import dgl
import torch
import numpy as np
import numpy
import os
from dgl.data import DGLDataset, save_graphs, load_graphs
graph = dgl.graph(([0, 1, 2, 3, 5, 2], [1, 2, 3, 4, 3, 0]))

二、Graph2NLP

利用dgl.sampling.random_walk构造图结构数据,搜索节点0, 1, 2, 3, 4, 54度以内的路径。

python 复制代码
paths = dgl.sampling.random_walk(graph, [0, 1, 2, 3, 4, 5], length=4)
paths[0].numpy().tolist()
def text_save(filename, data):#filename为写入CSV文件的路径,data为要写入数据列表.
    if os.path.exists(filename):
        os.remove(filename)
    file = open(filename,'a')
    for i in range(len(data)):
        s = str(data[i]).replace('[','').replace(']','').replace('-1','')#去除[],这两行按数据不同,可以选择
        s = s.replace("'",'').replace(',','') +'\n'   #去除单引号,逗号,每行末尾追加换行符
        file.write(s)
    file.close()
    print("保存成功")
text_save('data.txt', paths[0].numpy().tolist())

data.txt文本数据里的内容如下

python 复制代码
0 1 2 0 1
1 2 3 4 
2 0 1 2 0
3 4   
4    
5 3 4  

三、分析节点相似度

利用word2vec 分析data.txt文本数据,得到节点相似度。

代码如下:

python 复制代码
#coding:utf-8
import jieba
from gensim.models import Word2Vec
import gensim.models.word2vec as w2v
with open('data.txt',encoding='gb18030') as f:
    document = f.read()
    document_cut = jieba.cut(document)
    result = ' '.join(document_cut)
    print("type",type(result))
    with open('data_seg.txt', 'w',encoding="utf-8") as f2:
        f2.write(result)
model_file_name = 'data.model'
#模型训练,生成词向量
sentences = w2v.LineSentence('data_seg.txt')
model = Word2Vec(sentences, vector_size=100, window=5, min_count=1, workers=4)
model.save(model_file_name)
model = Word2Vec.load(model_file_name)
for vec in ['0','1','2','3','4', '5']:
    print('--%s--的似度' %(vec))
    print(model.wv.similar_by_word(vec, topn=15))
    print('\n')

结果分析

python 复制代码
--0--的似度
[('5', 0.13149002194404602), ('2', 0.0679759532213211), ('1', -0.013514956459403038), ('3', -0.04461709409952164), ('4', -0.11167057603597641)]

节点0与节点5、2的相似度较高。后续该idea考虑应用于实际业务场景中,分享应用案例。

相关推荐
广州灵眸科技有限公司10 分钟前
瑞芯微RV1126B开发板(EASY-EAI-PI2) Easy-Eai编译环境准备与更新
服务器·前端·人工智能·python·深度学习
深度学习lover13 分钟前
<数据集>yolo樱桃识别<目标检测>
人工智能·深度学习·yolo·目标检测·计算机视觉·数据集·樱桃识别
深圳市机智人激光雷达25 分钟前
技术筑牢安全冗余:激光雷达在自动驾驶高阶感知中的底层价值与范式演进
人工智能·安全·机器学习·3d·机器人·自动驾驶·无人机
江澎涌25 分钟前
拆解与 AI 的一次对话
人工智能·算法·程序员
lqqjuly36 分钟前
神经架构搜索深度解析(Neural Architecture Search, NAS)
人工智能·知识图谱
AI刀刀36 分钟前
Kimi 保存 pdf 显示该页的尺寸超出范围令人困扰,AI 导出鸭一键修复参数,导出 PDF 更顺畅
人工智能·pdf·ai导出鸭
sheeta199843 分钟前
LeetCode 每日一题笔记 日期:2026.06.02 题目:3635. 最早完成陆地和水上游乐设施的时间 II
笔记·算法·leetcode
Lsk_Smion1 小时前
力扣实训 _ [102].层序遍历--前序--后续_递归与非递归的实现
数据结构·算法·leetcode
冬奇Lab1 小时前
Agent 系列(13):Agent 安全与防护——提示词注入、工具滥用、数据泄露怎么防
人工智能·llm·agent