《大规模图数据管理与分析》序 | 梅宏

编者按:

北京大学邹磊教授编著的《大规模图数据管理与分析》(ISBN:978-7-04-063854-7)正式出版。梅宏院士为其作序,并且在《序》中强调数据已成为当今时代最关键的基础性资源。在互联网与人工智能推动下,数据从"记录工具"转变为驱动科技与经济发展的核心要素,并呈现出"数据为体、智能为用"的关系:数据的规模与质量直接决定智能(尤其是大模型)的能力上限。随着数据规模持续增长,大数据应用正推动计算技术体系重构,并对新一代数据管理提出更高要求。传统关系数据库已难以应对数据的多样性与复杂性,促使NoSQL技术发展,其中图数据库因擅长处理复杂关系而成为重要方向。同时,图数据管理仍面临诸多挑战,亟须系统化理论与方法支撑,本书正是在这一背景下对相关内容进行系统梳理。以下给出梅宏院士的《序》全文,https://item.jd.com/10158756820180.html?spmTag=YTAyNDAuYjAwMjQ5My5jMDAwMDQwMjcuMSUyM3NrdV9jYXJk可直达详情页面。

北京大学王选计算机研究所邹磊教授邀我为其新编著教材《大规模图数据管理与分析》写个序。作为同校同学科的同事,我对邹磊有颇多了解,也见证了他在北大成长的历程。他长期从事数据库领域的研究和教学工作,特别是在图数据库的研究方面颇有建树,是一位集才能和努力于一身的优秀青年学者。我自己的研究领域是软件技术,并非数据库领域的专家,但在过去的十多年,随着大数据热潮的兴起,我对数据领域也关注甚多,当然主要是从处理分析和应用大数据的软件技术和系统的视角。正因为和邹磊的诸多渊源,遂欣然允之。

当前,我们正处于一个信息技术发展不断引发全球科技和产业热点的时代!过去的20年,我们经历了云计算、大数据、物联网、区块链、数字孪生、元宇宙、深度学习等一波波的技术热潮。近两年,则是AI大模型概念"一骑绝尘",不仅仅在信息技术领域暴热,而且还广泛和深刻地影响了其他科技领域,甚至社会经济生活的各个方面,掀起了全民AI热。超越技术,从社会经济这个更广更高的视角来看,数字经济、数字化转型则是当前全球性的热词。仔细探究这些热点热潮的背后,我们不难发现其中三个关键的驱动要素,一是互联网及其延伸网络的快速发展和广泛深度应用,二是海量多样的数据积累及其在网上的流通汇聚,三是机器学习特别是深度学习带来的高效处理分析海量多模数据的自动化方法的突破性进步。如果我们要选出一样在信息时代对每个个体或机构最重要的东西,我的选择是:数据!

数据的价值和重要性毋庸置疑!从文明之初的"结绳记事",到文字发明后的"文以载道",再到近现代科学的"数据建模",数据一直伴随着人类社会的成长变迁。以电子计算机为代表的现代信息技术的出现,特别是基于互联网的新一代信息技术的快速发展,使人类获取掌握数据、处理分析数据的能力得以空前高速的提升。信息技术及其在社会经济生活方方面面的应用(即信息化)推动数据(信息)成为继物质、能源之后的第三大战略资源。自20世纪90年代中期互联网开启大规模商用起,全球数据一直呈爆炸式增长的态势,带来大数据现象。数据已经关联到人类生产与生活的方方面面,成为不可或缺的要素。当前AI热潮中的主流,本质上也是基于数据的AI,是数据驱动的智能、计算实现的智能。数据和智能呈现体和面的关系,即"数据为体、智能为用"。大规模和高质量的数据不仅构成了大模型能力的基石,也定义了大模型能力的天花板。

站在人类历史发展的维度,信息化已经广泛并深刻地影响和改变了人类社会!特别是过去的30年,以互联网为核心的信息技术深度渗透到现有经济体系中,打乱了原有的社会结构,并逐渐编织起新的工业网络,建立新的基础设施,扩散新的和先进的思维模式和行事方法。数据资源大规模聚集,其基础性、战略性凸显。信息技术正从助力经济发展的辅助工具向引领经济发展的核心引擎转变,一种继农业经济、工业经济之后的新经济范式------"数字经济"正在逐渐成型,正在进入信息技术带动经济发展的爆发期和黄金期。信息技术将深刻地重塑人类社会,社会经济全面数字化转型已成为时代趋势。我国也高度重视发展数字经济,在国际上率先将数据与土地、劳动力、资本、技术并列,作为新的生产要素,并在战略层面出台一系列政策进行宏观布局,大力推进传统行业的数字化转型。

在这样的时代趋势下,数据体量的持续快速增长将成为常态,现有信息技术体系及产业发展均面临一系列挑战,大数据应用需求将驱动计算技术体系的重构,其中也激发出对新一代数据管理等基础平台的迫切需求。

数据的高效管理一直以来都是一个具有挑战性的问题,是计算机科学一个重要的研究方向。数据管理也是数据高效处理与分析的基础。社会经济的全面数字化转型、数据的生产要素化,必然对数据管理带来系列新的技术挑战。

长期以来,数据管理技术的主流是面向结构化数据,关系数据库是现有数据管理系统的核心,基于对机构组织的业务需求分析,通过设计关系表来组织数据。在这样的信息系统开发模式下,需求获取和分析就成为非常关键的环节,需求一旦发生变化,就会带来数据组织的重构。而用户往往是很难一次性地描述清楚其业务需求的,这也成为MIS和ERP等信息系统开发中长期的痛点。

相比传统信息系统,大数据应用除了需要面对业务需求的更高复杂性和需求变化的更大动态性,还需要面对数据的多样性,而不少数据类本身就无法被有效地结构化。关系数据库所走的通用技术路线(one size fits all)就面临数据多样性带来的管理挑战。为此,数据管理领域诞生了大量非关系型数据库系统,统称为No-SQL。代表性的No-SQL数据库系统包括:面向大规模分布式数据存储和灵活数据模型特点的列族型数据库,面向半结构化数据存储的文档数据库系统,面向存储、查询和分析时间序列数据的时序数据库系统,支持向量相似度搜索、加速机器学习任务,可用于大语言模型(LLM)检索增强(RAG)的向量数据库系统等。

本书所关注的图数据库也是一类典型的No-SQL系统,它以节点(node)和边(edge)的形式表示数据,适合处理数据中的复杂关系。根据国际数据库排名网DB-Engine的报告,图数据库是各种不同类型的数据库系统中流行度近十年增幅最大的一类。

通过点与边构成的图来表达事物之间的关联,是一种更具直觉性的数据组织模式。图数据用显式的方式来表达事物间的关联性,有别于关系数据库中通过关系表之间的主- 外键连接(join)来隐式表征事物间的关联性,非常适合分析事物之间的复杂关联, 在众多领域中得到了广泛应用。例如, 银行风控模型中, 基于图上环路检测, 可在线阻断可疑的洗钱操作; 蛋白质交互网络 (PPI) 中, 基于图上路径发现, 可发现信号传导路径; 社交网络中, 基于图上社区探测, 可进行好友推荐。

众多的图数据应用带来不断增长的图数据规模, 也带来对高效图数据管理系统的迫切需求。然而, 图这种数据组织模式对传统的数据库系统实现提出了新的挑战。由于图数据库采用灵活的数据模式 (schema) 定义, 因此关系数据库中面向关系表的索引机制就不再可行; 传统以表连接为基础的关系数据库查询优化理论也不再适用; 面向关系表划分 (包括水平划分和垂直划分) 的分布式数据库技术对分布式图数据库系统的设计也不再奏效。此外, 图数据访存局部性差, 完全不同于对关系表的访问, 这需要重构针对图数据库的查询与计算代价模型。如此种种。

邹磊及其团队所撰写的这本教材, 从图数据管理与分析的角度, 总结了图数据的相关知识点, 为初学者提供了关于图数据研究的概貌视图。教材从现实世界图的特点与图数据生成机理入手, 介绍了实际应用中图数据的特征, 以及图数据管理中如何有效地利用和应对这些特征; 进而详细介绍了图数据管理与分析的经典算法和代表性系统, 尤其注重阐述算法与系统之间的逻辑关系。例如, 在图算法部分介绍了子图匹配算法, 在图数据库部分介绍了图查询语言的基础算子------子图匹配, 并介绍了子图匹配算子在图数据库查询引擎中的高效实现。本书围绕图数据, 从基本知识点, 到算法描述, 进而到相关系统的设计原理及使用, 都做了系统讲解, 并辅以课后的习题与课程实践, 以加深读者的理解。目前, 国内外还鲜有类似主题的教材, 该教材的问世无疑是一次很好的尝试。作为一本以图数据为轴, 纵向贯穿图数据管理与分析相关知识点的教材, 相信可以很好地帮助众多计算机及其相关专业的学生和技术开发者入门掌握图数据相关的理论与实践知识。

是为序。

梅宏

乙巳年正月于燕园

相关推荐
陈天伟教授3 小时前
智能体架构:大语言模型驱动的自主系统深度解析与演进研究(二)
人工智能·语言模型·架构
yanwumuxi11 小时前
Windows本地部署Dify(Docker)
人工智能·docker·语言模型
2301_7644413311 小时前
大模型的“做梦”机制与Harness Engineering(驾驭工程)
人工智能·语言模型·自然语言处理
s石有八九13 小时前
LLM评分集中化偏差:从人类评分者到LLM智能体的系统性综述
人工智能·语言模型
Jump 不二15 小时前
Claude Code 源码解析(一):架构篇,Claude Code的多Agent协同
人工智能·语言模型·架构
喜欢吃豆15 小时前
新一代知识图谱与检索增强生成技术全景解析
人工智能·知识图谱
财经资讯数据_灵砚智能16 小时前
基于全球经济类多源新闻的NLP情感分析与数据可视化(夜间-次晨)2026年4月2日
大数据·人工智能·python·信息可视化·语言模型·自然语言处理·ai编程
向上的车轮17 小时前
从零构建极简大语言模型:MiniLLMDemo 原理与实现详解
人工智能·语言模型·自然语言处理
Jerry.张蒙17 小时前
大语言模型(LLM)的核心逻辑理解
大数据·人工智能·学习·语言模型·自然语言处理·区块链