github 获取构造图数据库的LNB数据集和使用说明

数据集来源:github

https://github.com/ldbc/data-sets-surf-repository/blob/main/download-data-set.sh

zst文件解压

https://cloud.tencent.com/developer/information/zst文件解压-ask

zstd -d filename.tar.zst

tar -xvf filename.tar

https://github.com/ldbc/data-sets-surf-repository/blob/main/lsqb.md

https://cloud.tencent.com/developer/information/zst文件解压-ask

https://repository.surfsara.nl/datasets/cwi/ldbc-snb-interactive-v1-datagen-v100

git hub写了使用说明

To decompress, use zstd.

tar -xv --use-compress-program=unzstd file.tar.zst

./download-data-set.sh data_set_url

./download-data-set.sh https://repository.surfsara.nl/datasets/cwi/snb/files/social_network-csv_basic-longdateformatter/social_network-csv_basic-longdateformatter-sf0.1.tar.zst

数据集的介绍

LDBC是一个国际认可的图处理基准制定委员会。,官方提供不同规模的数据、样本、测试方案、测试结果,图数据库按照它所提供内容进行测试,从而起到横向对比图数据库性能的作用。

提供的基准测试:提供了6个常用图算法的测试

● BFS

● PageRank

● 弱连通

● 标签传播

● 局部聚类系数

● 最短路径

Semantic Publishing Benchmark(LDBC-SPB)

基于RDF的语义数据库基准测试,通过同时执行CRUD(创建、读取、更新、删除)操作来衡量性能,

Social Network Benchmark Suite (LDBC-SNB)

简称SNB是在社交图中进行模拟真实查询场景,来衡量数据库性能。比如:提供一张微博关系社交图,我们查找在圣诞节发微博最多的人,具有实际意义的查询,模拟该查询能更好的体现数据库在实际场景中的性能。

LDBC Financial Benchmark (LDBC-FINBENCH)

顾名思义是用于反欺诈和风控等金融相关的测试场景

LDBC用Scale Factor (sf) 比例因子来表示图的大小。Scale Factor 1 (sf1)表示原数据大小1GB,Scale Factor 100 (sf100)表示原数据大小100GB,当然也有 Scale Factor 0.1,Scale Factor 10000,Scale Factor 30000。

NB测试中提到了BI,IS,II是什么?

LDBC-SNB包含两测试部分(可单独测试)一个是Interactive(交互查询)另一个是Business Intelligence(商业智能)。

Interactive

● Interactive complex reads(复杂查询IC)

● Interactive short reads(简单查询IS)

● Interactive insert updates(插入II)

● 这三种类型的测试项具有多个,分别是IC1IC14、IS1IS7、II1~II8,查询为局部查询。

● 比如:查找指定Person发的博文总数。

● Business Intelligence

Business Intelligence(商业查询)

https://www.modb.pro/db/522461

我们在不同规模的LDBC-SNB数据集上对TigerGraph和Dgraph进行了性能测试,主要结论如下:

● 加载数据时,TigerGraph比Dgraph Bulk快2到4倍,比Dgraph Live快9到30倍。

● 运行复杂程序时,TigerGraph的只读查询速度是Dgraph的2到3000倍。

● 运行最短的只读查询时,TigerGraph大约比Dgraph快2到2000倍。

● 运行简短的只读查询时,TigerGraph的响应时间不随数据集大小的增加而波动,而Dgraph的响应时间则随数据集大小的增加而波动。

● 运行大多数商业智能工作负载时,TigerGraph的速度大约是Dgraph的2到1600倍。

● 随着数据集大小和查询复杂度的增加,TigerGraph的查询响应时间增加了2~5倍,而Dgraph的查询响应时间增加了14倍以上。

相关推荐
fundroid2 分钟前
Room 3.0 完全解析:一次面向未来的现代化重构
android·数据库·database·kmp
小江的记录本2 分钟前
【Redis】Redis常用命令速查表(完整版)
java·前端·数据库·redis·后端·spring·缓存
卓怡学长2 分钟前
m281基于SSM框架的电脑测评系统
java·数据库·spring·tomcat·maven·intellij-idea
umeelove355 分钟前
SQL中的DISTINCT、SQL DISTINCT详解、DISTINCT的用法、DISTINCT注意事项
java·数据库·sql
@insist1237 分钟前
数据库系统工程师-嵌入式 SQL 与存储过程核心原理与应试指南
数据库·sql·软考·数据库系统工程师·软件水平考试
m0_5698814713 分钟前
使用Python自动收发邮件
jvm·数据库·python
marsh020614 分钟前
16 openclaw与数据库集成:ORM使用与性能优化
数据库·spring·ai·性能优化·编程·技术
weixin_4219226916 分钟前
使用Python进行图像识别:CNN卷积神经网络实战
jvm·数据库·python
2301_7765087223 分钟前
用Python和Twilio构建短信通知系统
jvm·数据库·python
LaughingZhu24 分钟前
Product Hunt 每日热榜 | 2026-03-22
大数据·数据库·人工智能·经验分享·搜索引擎