2025年数据库三大顶会论文与Keynote详细介绍

2025年数据库顶级会议论文与奖项综述

SIGMOD · VLDB · ICDE

整理日期:2026年4月


一、SIGMOD 2025

  • 会议全称:ACM SIGMOD/PODS International Conference on Management of Data
  • 时间地点:2025年6月22日-27日,德国柏林
  • 官方网站https://2025.sigmod.org/

最佳研究论文(共两篇)

1. LpBound: Pessimistic Cardinality Estimation Using Lp-Norms of Degree Sequences

作者:Haozhe Zhang, Christoph Mayer, Mahmoud Abo Khamis, Dan Olteanu, Dan Suciu

奖项:最佳研究论文奖 (Best Paper Award)

基数估计(Cardinality Estimation)是查询优化器中最关键也最容易出错的环节------实际系统中的估计误差经常达到数个数量级,导致优化器选择次优的查询计划。本文提出了一种"悲观基数估计"方法,即计算连接查询结果大小的上界而非点估计值。

其核心技术是利用关系列的度序列(degree sequence)的Lp范数,结合Shannon信息不等式,通过求解线性规划问题来推导紧致的基数上界。与传统的乐观估计(倾向于低估)不同,悲观估计保证不会低估结果大小,从而避免优化器因低估而选择嵌套循环连接等灾难性计划。

实验表明,LpBound在JOB、STATS和子图匹配基准测试上的精度比主流开源和商业数据库系统使用的传统估计器高出数个数量级,同时保持了低估计时间和低空间开销。将LpBound的估计注入PostgreSQL后,生成的查询计划质量至少与使用真实基数时一样好。


2. Low-Latency Transaction Scheduling via Userspace Interrupts: Why Wait or Yield When You Can Preempt?

作者:Kaisong Huang, Jiatang Zhou, Zhuoyue Zhao, Dong Xie, Tianzheng Wang

奖项:最佳研究论文奖 (Best Paper Award)

现代数据库系统中的事务调度通常采用协作式调度(cooperative scheduling),即事务主动让出(yield)CPU。但这种方式存在严重的"长事务霸占资源"问题------一个耗时事务会阻塞同一线程上的其他短事务,导致尾延迟飙升。

本文提出了PreemptDB,利用Linux的用户空间中断(uintr)机制实现抢占式事务调度:当短事务需要执行时,系统可以通过用户空间中断暂停当前正在运行的长事务,优先执行短事务,完成后再恢复长事务。这一方法无需内核态切换开销,同时避免了传统yield机制中频繁插入yield point的代码侵入性。

这是首次将硬件级用户态中断技术引入数据库事务调度的工作,实验表明在混合长短事务的工作负载下,该方法可以将尾延迟降低一个数量级以上,对混合OLTP/OLAP工作负载和实时数据库系统具有重要意义。


荣誉提名(Honorable Mentions)

3. CRDV: Conflict-free Replicated Data Views

作者:Nuno Faria, Jose Pereira

奖项:荣誉提名 (Honorable Mention)

CRDT(无冲突复制数据类型)是分布式系统中实现最终一致性的重要基础组件,但传统CRDT只支持简单的数据结构(如计数器、集合、寄存器),难以表达复杂的关系型数据操作。

本文提出了CRDV(无冲突复制数据视图),通过两层SQL视图克服了上述挑战:第一层从更新历史中提供复制关系表,第二层在复制表之上实现丰富多样的数据类型。这种设计允许用SQL本身定义合并语义甚至全新数据类型,使得分布式数据库的多个副本可以独立更新基表数据,同时保证所有副本上的视图查询结果最终一致。CRDV巧妙地将分布式数据一致性问题转化为SQL视图的设计问题,为构建高性能分布式数据库提供了全新的架构思路。


4. DPconv: Super-Polynomially Faster Join Ordering

作者:Mihail Stoian, Andreas Kipf

奖项:荣誉提名 (Honorable Mention)

连接顺序优化(join ordering)是查询优化中计算复杂度最高的子问题之一------对于N个表的连接,搜索空间随N指数级增长。经典的动态规划算法(如DPccp)虽然精确但在表数量较多时计算开销巨大,最坏情况时间复杂度为O(3^n)。

本文提出了DPconv算法,通过利用子集卷积(Subset Convolution)技术加速动态规划中的子问题合并过程,首次突破了O(3^n)的时间障碍,实现了超多项式级(super-polynomially)的加速。在大型团查询(clique queries)上比DPccp快高达30倍。这是连接排序问题上数十年来首次实现理论复杂度突破的成果,为处理现代分析型工作负载中常见的复杂多表连接查询提供了更加高效的精确解法。


最佳工业论文

5. Unlocking the Potential of CXL for Disaggregated Memory in Cloud-Native Databases

作者:Xinjun Yang, Yingqiang Zhang, Hao Chen, Feifei Li 等(阿里云 PolarDB 团队)

奖项:最佳工业论文奖 (Best Industry Paper)

CXL(Compute Express Link)是一种新兴的高速互联协议,支持CPU与远端内存设备之间的缓存一致性访问,被认为是实现存算分离架构的关键硬件技术。本文来自阿里云PolarDB团队,首次系统地探索了CXL在云原生数据库中的应用潜力。

核心贡献包括:(1)设计了PolarCXLMem,首个基于CXL交换机的解耦内存系统;(2)提出了即时恢复方案PolarRecv,支持崩溃后即时恢复和快速缓冲池预热;(3)设计了基于CXL的新型缓存一致性协议,支持多主数据库节点间的数据共享。

在阿里云PolarDB上的评估表明,PolarCXLMem在池化场景下可将吞吐量提升高达2.1倍,在共享场景下提升1.55倍(相比基于RDMA的系统)。这是CXL技术在生产级云原生数据库中的首次实际应用研究,对整个云数据库行业的架构演进具有重要指导意义。


SIGMOD 系统奖

6. Google Spanner --- SIGMOD Systems Award 2025

贡献者:James C. Corbett, Jeffrey Dean, Michael Epstein, Andrew Fikes, Sanjay Ghemawat 等45位工程师

授奖词:"表彰其重新构想了关系数据管理,使其在全球规模下实现了具有外部一致性的可串行化。"

Google Spanner是全球首个提供外部一致性(external consistency)保证的全球分布式数据库系统,最初发表于OSDI 2012。其核心技术创新是TrueTime API------利用GPS和原子钟的组合提供全局时间误差边界,使系统能够在不牺牲强一致性的前提下实现跨数据中心的高可用事务处理。

Spanner随后持续演进为一个完整的关系型分布式数据库(Spanner SQL, SIGMOD 2017),支持SQL查询、自动分片、透明故障切换等企业级功能。它是Google内部数百个关键服务的基础数据库,并通过Cloud Spanner对外提供服务。

Spanner的设计理念深刻影响了整个分布式数据库领域------包括CockroachDB、TiDB、YugabyteDB等开源项目都借鉴了其架构思想。此次获得系统奖是对Spanner在过去十余年间对数据库工业界产生深远影响的最高认可。


时间检验奖 (Test of Time Award)

7. K-Shape: Efficient and Accurate Clustering of Time Series

作者:John Paparrizos, Luis Gravano

原发表:SIGMOD 2015

授奖词:"因通过基于互相关的形状方法推进时间序列聚类研究,实现了高精度、计算效率和广泛领域适用性的独特综合而获此殊荣。"

K-Shape是一种专门针对时间序列数据设计的聚类算法。其核心创新是使用形状相似性距离(shape-based distance, SBD)替代传统的欧氏距离来度量时间序列之间的相似性。SBD基于归一化互相关(normalized cross-correlation)计算,天然具有平移不变性(shift-invariance),能够捕捉两条时间序列在形态上的相似性而不受时间偏移的影响。

通过快速傅里叶变换(FFT)高效计算互相关距离,并基于瑞利商(Rayleigh quotient)优化推导出最优质心计算的闭式解,将距离计算复杂度从O(n²)降低到O(n log n)。K-Shape在85个不同领域的数据集上显著优于当时所有主流时间序列聚类方法,已被引用超过1000次,广泛应用于金融、医疗、物联网、气象等领域。


二、VLDB 2025

  • 会议全称:51st International Conference on Very Large Data Bases
  • 时间地点:2025年9月1日-5日,英国伦敦
  • 论文集:PVLDB Vol. 18 (Proceedings of the VLDB Endowment)
  • 官方网站https://www.vldb.org/2025/

最佳研究论文

1. Diva: Dynamic Range Filter for Var-Length Keys and Queries

作者:Navid Eslami (多伦多大学), Ioana Bercea (KTH), Niv Dayan (多伦多大学)

奖项:最佳研究论文奖 (Best Research Paper)

范围过滤器(Range Filter)是LSM-Tree等存储引擎中的关键组件,用于在读取磁盘前快速判断某个范围查询是否可能命中数据,从而避免不必要的I/O。现有的范围过滤器(如SuRF、Rosetta、Proteus等)主要针对定长键设计,在面对变长键(如字符串、复合键)和变长查询范围时存在假阳性率过高或空间浪费的问题。

Diva的核心贡献是设计了一种自适应分层编码方案,能够根据键的长度分布和查询模式动态调整过滤器的内部结构,在空间开销和过滤精度之间取得最优平衡。实验表明Diva在变长键场景下假阳性率降低了数倍,同时支持高效的动态插入和删除操作,对LSM-Tree存储引擎和分布式存储系统的范围查询性能提升有直接价值。


2. The Key to Effective UDF Optimization: Before Inlining, First Perform Outlining

作者:Samuel Arch, Yuchen Liu, Todd Mowry, Jignesh Patel, Andrew Pavlo (CMU)

奖项:最佳研究论文亚军 (Best Research Paper Runner-Up)

用户自定义函数(UDF)在数据库查询中无处不在,但由于优化器无法"看透"UDF的内部逻辑,包含UDF的查询通常无法被有效优化。传统方法是将UDF直接"内联"(inlining)到SQL查询中,但复杂UDF内联后往往使查询计划更加膨胀和难以优化。

本文提出了一个反直觉的策略:先外联(outlining)再内联------首先通过程序分析技术将UDF中的复杂控制流分解为更简单的、可独立优化的子表达式,然后再将这些简化后的组件选择性地内联到查询中。关键洞察是UDF优化的瓶颈不在内联本身,而在于内联前缺乏对UDF结构的合理分解。实验证明该方法在多种数据库系统上带来了数量级的性能提升。


最佳工业论文

3. Ursa: A Lakehouse-Native Data Streaming Engine for Kafka

作者:Sijie Guo, Matteo Merli 等 (StreamNative)

奖项:最佳工业论文奖 (Best Industry Paper)

Ursa是StreamNative开发的Lakehouse原生数据流引擎,兼容Apache Kafka协议。传统Kafka部署面临三大痛点:本地磁盘存储成本高、存储与计算紧耦合导致弹性伸缩困难、流数据与批分析数据形成数据孤岛。

Ursa的核心设计思路是将Kafka的消息存储从本地磁盘迁移到对象存储(如S3),通过分层缓存和智能预取机制维持低延迟的消息消费体验,实现存算分离。同时,Ursa原生支持将流数据以Apache Iceberg等开放表格式直接写入Lakehouse,使实时数据无需ETL即可被下游分析引擎(如Spark、Trino)直接查询。这一架构将流处理和批分析统一在Lakehouse生态中,代表了实时数据平台架构演进的重要方向。


4. Delta Sharing: An Open Protocol for Cross-Platform Data Sharing

作者:Krishna Puttaswamy 等 (Databricks)

奖项:最佳工业论文亚军 (Best Industry Paper Runner-Up)

Delta Sharing是Databricks推出的开放数据共享协议,解决了企业间和组织间数据共享的核心难题:平台锁定和数据冗余。传统数据共享依赖SFTP、数据库复制或私有API,要求双方使用相同平台,且需要物理拷贝数据。

Delta Sharing基于REST API设计,实现了零拷贝数据共享------数据提供方只需授权访问权限,消费方通过标准协议直接读取原始数据。该协议支持pandas、Spark、Power BI等多种客户端,具备表级/分区级的细粒度访问控制、版本追踪和审计日志功能。协议已开源并被多个云平台采纳,推动了数据市场(Data Marketplace)生态的标准化,对数据治理和数据民主化意义深远。


最佳实验/分析/基准论文

5. The UDFBench Benchmark for General-purpose UDF Queries

作者:Yannis Foufoulas 等 (Athena Research Center)

奖项:最佳实验/分析/基准论文 (Best Experiment Paper)

数据库领域长期缺乏一个系统性的UDF查询性能基准测试,导致各种UDF优化技术的实验评估缺乏可比性和可重复性。UDFBench填补了这一空白:它系统地分类整理了实际应用中常见的UDF模式(标量UDF、表值UDF、聚合UDF等),提供了覆盖多种编程语言(SQL、Python、Java)和复杂度级别的测试用例集,并定义了统一的性能评测指标和方法论。该基准与CMU的UDF优化论文形成很好的互补,共同推动了UDF优化研究的规范化发展。


6. The LDBC Financial Benchmark: Transaction Workload

作者:Shipeng Qi (蚂蚁集团) 等多家机构合作

奖项:最佳实验/分析/基准论文亚军

LDBC(Linked Data Benchmark Council)此前发布的社交网络基准(SNB)已成为图数据库领域的标准测试。本次推出的金融基准专门针对反欺诈、风控、反洗钱等金融场景中的复杂图查询和事务处理需求。核心贡献包括:基于真实金融数据特征的合成数据生成器、覆盖多跳路径查询/环路检测/时序图模式匹配等典型金融查询模式、以及对事务隔离级别和并发控制的严格测试。该基准填补了图数据库在金融行业应用评测方面的空白。


主题演讲 (Keynotes)

7. Stratos Idreos (哈佛大学)

题目:"Alphabets, Grammars, Calculators, and the End of Hand-Crafted Systems"

Idreos教授是数据结构自动化设计领域的开创者。本次演讲提出了一个统一的理论框架:将数据结构的设计空间形式化为由"字母表"(基本操作原语,如读/写/排序/哈希)和"语法"(组合规则)构成的设计语言,再通过"计算器"(代价模型)自动搜索最优设计方案。

他的核心论点是------未来的数据系统不应再依赖人工手工设计和调优,而应通过形式化的设计空间探索实现自动化合成。就像编译器取代了手写汇编一样,"系统设计计算器"将取代手工设计的数据库组件。这一愿景代表了从自驾数据库(self-driving database)到更深层的"自设计数据系统"(self-designing systems)的进化方向。


8. 李飞飞 (阿里云)

题目:"Modernization of Databases in the Cloud Era: Building Databases that Run Like Legos"

李飞飞是阿里云数据库产品事业部负责人、阿里巴巴集团副总裁。演讲以"像乐高积木一样构建数据库"为核心比喻,阐述了云时代数据库的四大现代化趋势:

(1)云原生架构------存算分离、Serverless弹性,以PolarDB为例展示如何实现计算、存储、内存资源的独立伸缩;(2)云平台编排------通过Kubernetes等容器编排实现数据库实例的自动化生命周期管理;(3)数据织物(Data Fabric)------将OLTP、OLAP、图、文档等多种数据模型统一在一个平台上按需组合;(4)AI优先------将向量检索、智能调优、自然语言查询等AI能力作为数据库的原生功能。


9. Matei Zaharia (Databricks / UC Berkeley)

题目:"Bringing the Operational and Analytical Worlds Together with Lakebase"

Matei Zaharia是Apache Spark创始人、Databricks联合创始人兼CTO。演讲提出了Lakebase概念------在Lakehouse(数据湖仓)架构之上同时支持操作型(OLTP)和分析型(OLAP)工作负载。传统架构中OLTP数据库和分析数据仓库是两个独立系统,数据需要通过ETL管道流转,带来延迟、一致性和维护成本问题。

Lakebase的愿景是在Delta Lake等开放表格式之上,同时支持低延迟事务处理和大规模分析查询,消除OLTP/OLAP鸿沟。这一方向代表了数据库架构从HTAP向Lakehouse原生HTAP的进化。演讲还讨论了AI Agent如何改变数据库工作负载模式------Agent生成的查询模式与人类显著不同,需要新的优化策略。


10. Juliana Freire (NYU)

题目:"Bridging Disciplines in Data Management Research to Solve Complex Data Problems"

Freire教授在数据溯源(data provenance)、科学数据管理和城市数据分析领域有杰出贡献。演讲强调了跨学科协作在解决复杂数据问题中的关键作用------城市计算、气候科学、公共卫生等现实挑战不能仅靠传统数据库技术解决,需要融合数据管理、机器学习、可视化、领域科学等多学科方法。

她通过NYU的城市数据平台VisBol、数据发现系统Auctus等案例展示了跨学科研究如何产生更大实际影响力,呼吁数据库社区打破学科壁垒,拥抱更广泛的数据科学生态,培养具有跨学科视野的下一代研究者。


奖项

11. Xiangyao Yu (余翔瑶) --- Early Career Research Contribution Award

单位:威斯康星大学麦迪逊分校

获奖方向:Disaggregation: A New Architecture for Cloud Databases

余翔瑶是MIT博士,获奖原因是其在云数据库存算分离(disaggregation)架构方面的突出贡献。核心研究方向是将数据库的计算、内存和存储资源解耦,使每种资源独立弹性伸缩。代表性工作包括Polaris存算分离事务处理系统和面向分离式内存的并发控制协议。这些工作直接影响了AWS Aurora、阿里云PolarDB等云数据库的架构设计方向。


12. Angela Bonifati --- Women in Database Research Award

单位:法国里昂第一大学 (Université Lyon 1)

Angela Bonifati在图数据库、图查询语言标准化方面做出了深远贡献,是GQL(Graph Query Language)国际标准化工作的核心推动者------GQL旨在成为图数据库的"SQL"。此外,她在图数据模式推断、图查询基准测试和跨模型数据管理方面也有重要工作。该奖项表彰在数据库研究领域做出卓越贡献的女性学者。


13. "How Good Are Query Optimizers, Really?" --- Test of Time Award

作者:Viktor Leis, Andrey Gubichev, Atanas Mirchev, Peter Boncz, Alfons Kemper, Thomas Neumann (TU Munich, CWI)

原发表:VLDB 2015

这篇经典论文对主流关系数据库的查询优化器进行了系统的实验评估。核心发现是:查询优化器性能不佳的主要瓶颈不在于代价模型本身,而在于基数估计(cardinality estimation)的严重不准确------实际系统中的估计误差经常达到数个数量级。这一结论重新将社区的注意力从代价模型改进引向基数估计问题。

论文还提出了JOB(Join Order Benchmark),成为后续查询优化研究中被广泛使用的标准基准测试,引发了一波学习型基数估计的研究热潮,至今仍是该领域被引用最多的论文之一。


三、ICDE 2025

  • 会议全称:41st IEEE International Conference on Data Engineering
  • 时间地点:2025年5月19日-23日,中国香港特别行政区
  • 官方网站https://ieee-icde.org/2025/

最佳论文

1. Incremental Stream Query Placement in Massively Distributed and Volatile Infrastructures

作者:Ankit Chaudhary (TU Berlin), Kaustubh Beedkar (IIT Delhi), Jeyhun Karimov (Ververica), Felix Lang, Steffen Zeuch, Volker Markl (TU Berlin)

奖项:最佳论文奖 (Best Paper Award)

在边缘计算和物联网场景下,流处理查询需要部署在大规模分布式且动态变化的基础设施上------节点可能随时加入或离开,网络带宽持续波动。传统的一次性全局优化放置策略在这种动态环境下效果很差,因为每次拓扑变化都需要重新计算全局方案。

本文提出了增量式流查询放置方法:当基础设施发生局部变化时(如节点故障、新节点加入),系统仅对受影响的查询算子进行局部重新放置,而非重算整个部署方案。核心技术贡献是一个高效的增量优化算法,能在毫秒级时间内完成放置调整,同时保证全局性能接近最优。实验表明该方法在大规模(数千节点)动态环境中的放置质量和适应速度远优于现有方案。


2. CloudyBench: A Testbed for A Comprehensive Evaluation of Cloud-Native Databases

作者:Chao Zhang (人民大学), Guoliang Li (清华大学), Leyao Liu (Imperial College London), Tao Lv, Ju Fan

奖项:最佳论文亚军 (Best Paper Runner-Up)

云原生数据库(如AWS Aurora、TiDB、CockroachDB等)已成为主流,但缺乏一个公平、全面的评估测试平台------现有基准(如TPC-C、TPC-H)无法充分测试弹性伸缩、故障恢复、多租户隔离等云原生特性。

CloudyBench设计了一个覆盖云原生数据库核心特性的综合评估框架,包括:(1)弹性伸缩性能------在负载突变时的自动扩缩容响应时间;(2)故障恢复------模拟各类故障场景下的RTO/RPO指标;(3)多租户性能隔离------验证不同租户之间的资源隔离效果;(4)Serverless冷启动延迟等。该工具已开源,为产业界和学术界提供了一个迫切需要的标准化评估平台。


最佳学生论文

3. SeSeMI: Secure Serverless Model Inference on Sensitive Data

作者:Guoyu Hu (NUS), Yuncheng Wu (人民大学), Gang Chen (浙大), Anh Dinh (Deakin University), Beng Chin Ooi (NUS)

奖项:最佳学生论文奖 (Best Student Paper)

随着MLaaS(机器学习即服务)的普及,用户需要将敏感数据上传到云端进行模型推理,带来严重的隐私泄露风险。本文提出了SeSeMI系统,在Serverless计算环境下实现安全的模型推理------既保护用户数据的隐私,又保护模型提供方的知识产权。

核心技术是结合了可信执行环境(TEE,如Intel SGX)和Serverless函数的弹性伸缩能力:将模型的敏感计算部分放在TEE中执行,同时利用Serverless的按需伸缩特性应对推理请求的峰值。系统还设计了高效的模型分区策略,将模型分为安全关键部分(TEE内执行)和非敏感部分(普通环境执行),在安全性和性能之间取得平衡。


最佳工业论文

4. BlendHouse: A Cloud-Native Vector Database System in ByteHouse

作者:Zhaojie Niu, Xinhui Tian, Xindong Peng, Xing Chen (字节跳动 ByteDance)

奖项:最佳工业与应用论文奖 (Best Industry and Application Paper)

BlendHouse是字节跳动在其云原生数据仓库ByteHouse中构建的向量数据库系统。在大模型和RAG(检索增强生成)应用爆发式增长的背景下,向量检索成为核心需求。与独立的向量数据库(如Milvus、Pinecone)不同,BlendHouse采用了融合架构------将向量检索能力深度集成到现有的分析型数据仓库中。

核心技术包括:(1)面向云原生架构的分布式向量索引构建和管理;(2)高效的混合查询优化器,能智能地决定先执行向量检索还是先执行标量过滤;(3)支持多种索引类型(HNSW、IVF-PQ等)的统一索引框架。用户可以在同一个SQL查询中同时进行结构化数据过滤和向量相似性搜索。该系统已在字节跳动内部的推荐、搜索、广告等场景中大规模部署。


5. OceanBase Unitization: Building the Next Generation of Online Map Applications

作者:Quanqing Xu (OceanBase/蚂蚁集团), Wei Sun (高德/阿里), Chuanhui Yang, Jinlong Liu 等

奖项:最佳工业与应用论文亚军

本文介绍了OceanBase分布式数据库在高德地图等大规模在线地图应用中的单元化(unitization)实践。在线地图服务面临严峻的性能挑战:数十亿级POI(兴趣点)数据、每秒数百万次查询请求、毫秒级延迟要求、以及强一致性保证。

单元化架构的核心思想是将全球地图数据按地理区域划分为独立的服务单元,每个单元可以独立部署、独立伸缩和独立容灾,同时通过OceanBase的分布式事务能力保证跨单元数据的一致性。该工作展示了分布式数据库如何与业务架构深度融合,解决超大规模在线服务的可用性和性能问题。


主题演讲 (Keynotes)

6. Amr El Abbadi (加州大学圣塔芭芭拉分校)

题目:"Taming Big Data: Stream Summarization and its Many Applications"

本次演讲聚焦数据流摘要(stream summarization)技术------在海量实时数据流上进行高效的近似计算。核心内容包括Sketch数据结构(如Count-Min Sketch、HyperLogLog)、采样算法和滑动窗口模型等技术在频率估计、基数估计、分位数查询等任务上的应用。

演讲重点讨论了流数据摘要中的"重击者"(heavy hitters)问题在多种环境下的最新进展,包括同时包含插入和删除操作的场景、隐私挑战、以及在大规模弹性云环境中的缓存应用和现代软件定义网络中的数据分析与监控。El Abbadi教授是ACM Fellow、AAAS Fellow和IEEE Fellow。


7. 李国良 (清华大学)

题目:"Data+AI: An LLM-Powered Data Analytics System"

该演讲探讨了如何利用大语言模型(LLM)革新数据分析系统。传统数据分析系统在处理结构化数据方面已经成熟,但面对非结构化和异构数据仍面临巨大挑战。LLM的理解、推理、语义匹配和生成能力为革新数据分析系统提供了契机。

演讲从三个层面展开:第一,在结构化数据分析中,将LLM作为语义算子集成到数据分析流程中;第二,对于非结构化数据,利用LLM自动生成分析执行流水线;第三,对于异构数据,展示如何关联不同数据类型并融合其执行计划。李国良教授曾获VLDB 2017早期研究贡献奖、TCDE 2014早期职业奖等多项荣誉。


8. Evaggelia Pitoura (希腊约阿尼纳大学)

题目:"Responsible AI and the Role of Data Engineering"

该演讲聚焦于负责任AI(Responsible AI)中公平性和可解释性两个关键维度,以及数据工程在其中的角色。核心论点是:AI系统的公平性、可解释性和可信赖性问题,根源往往不在模型本身,而在于训练数据的质量、偏差和治理。

演讲重点介绍了反事实解释(Counterfactual Explanations)技术,通过识别能够改变算法输出的最小输入变化来提供洞察,是增强公平性和透明性的有力工具。此外还讨论了检索增强生成(RAG)流水线中的负责任性问题,强调了如何利用数据工程原则和技术来提升AI系统的质量和性能。


TCDE 奖项

9. Jianguo Wang (王建国) --- IEEE TCDE Rising Star Award

单位:普渡大学 (Purdue University)

获奖理由:"For contributions to disaggregated databases and vector databases"

王建国的研究聚焦于新型数据库系统架构。在解耦式数据库(Disaggregated Databases)方面,他研究了如何利用RDMA、CXL等新硬件技术实现存储和计算的高效分离;在向量数据库方面,他在高维向量索引、近似最近邻搜索等方面做出了重要贡献。这两个方向恰好是当前云数据库和AI基础设施的核心技术需求。


10. Raghu Ramakrishnan & Johannes Gehrke --- Outstanding Database Education Award

单位:Microsoft

获奖理由:编写了广泛使用的教材并附带开源软件包,对全球数据库系统教育产生了重大影响

两位获奖者合著了经典教材"Database Management Systems"(俗称"牛书"),是全球使用最广泛的数据库教材之一。该书以清晰的写作、丰富的示例和配套的开源教学软件(如Minibase系统)著称,几十年来培养了无数数据库从业者。该奖表彰了他们对数据库教育事业的持久贡献。


11. "SpatialHadoop: A MapReduce Framework for Spatial Data" --- Ten Year Influential Paper

作者:Ahmed Eldawy, Mohamed F. Mokbel

原发表:ICDE 2015

SpatialHadoop是首个在Hadoop MapReduce框架中原生支持空间数据处理的系统。核心贡献包括:空间感知的数据分区(如基于R-Tree和网格的分区策略)、空间索引的MapReduce实现、以及空间查询算子(范围查询、KNN、空间连接等)的并行化。

该工作开创了在大数据平台上进行空间数据分析的范式,影响了后续GeoSpark/Apache Sedona等空间大数据系统的设计,在地理信息系统(GIS)和位置服务领域被广泛引用。获得十年影响力奖印证了其在空间大数据领域的奠基性地位。


四、2025年数据库领域总体趋势

1. AI与数据库深度融合

三大会议均将AI(特别是LLM)与数据库系统的结合作为核心主题。ICDE的Keynote直接聚焦LLM驱动的数据分析,VLDB的Keynote探讨AI Agent对数据库工作负载的影响。从Text-to-SQL到智能调优,从向量检索到语义分析,AI正在重塑数据库系统的方方面面。

2. 云原生数据库架构

存算分离、CXL内存解耦、Lakehouse架构成为工业界研究热点。SIGMOD工业最佳论文(CXL+PolarDB)、VLDB Keynote(Lakebase)、ICDE最佳工业论文(ByteHouse向量数据库)均涉及此方向。云原生不再只是部署方式的改变,而是对数据库架构的根本性重构。

3. 向量数据库

随着大模型和RAG应用的爆发式增长,向量数据库成为重要方向。ICDE最佳工业论文(BlendHouse)和TCDE Rising Star Award(王建国)均与此相关。一个显著趋势是:向量检索能力正在被融合到现有的关系型或分析型数据库中,而非作为独立系统存在。

4. 查询优化持续演进

SIGMOD最佳论文(基数估计)、VLDB Test of Time Award("查询优化器到底有多好")、DPconv(连接顺序优化)、UDF优化等表明查询优化仍是数据库领域最核心的研究课题之一。新的理论方法(如Lp范数、子集卷积)正在为这些经典问题带来突破。

5. 自适应/自设计系统

VLDB Keynote中Stratos Idreos提出的"数据系统设计语法"概念,代表了从self-driving database到self-designing system的进化方向------不仅让系统自动调优,更要让系统自动设计自身的数据结构和架构。

6. 数据流处理

ICDE最佳论文(分布式流查询放置)和VLDB最佳工业论文(Ursa/Kafka)体现了流处理在实际系统中的重要性。边缘计算和物联网的发展对流处理的实时性和弹性提出了更高要求。

7. 中国学者/企业的突出贡献

阿里云PolarDB(SIGMOD工业最佳论文)、字节跳动ByteHouse(ICDE工业最佳论文)、OceanBase/蚂蚁集团(ICDE工业亚军)等中国企业在工业论文中表现亮眼。清华大学李国良教授做ICDE Keynote,人民大学+清华合作获ICDE最佳论文亚军。中国在数据库领域的学术和产业影响力持续提升。

相关推荐
rannn_1112 小时前
【Redis|实战篇7】黑马点评|附近商铺、用户签到、UV签到
java·数据库·redis·后端·uv
鬼先生_sir2 小时前
JWT + Spring Security / OAuth2.0:微服务统一登录、鉴权、单点登录全解析
数据库
云边有个稻草人2 小时前
KES核心伪列深度解析:OID与ROWID机制、差异及实践
数据库·rowid核心机制·oid 的双重特性
猿小喵2 小时前
MySQL长时间未提交事务分析
数据库·mysql·性能优化
摆烂z2 小时前
spEL语法替换sql值
java·数据库·sql
江不清丶2 小时前
深入剖析 MySQL 日志系统:Redo Log、Undo Log 与 Binlog 的协同工作原理
数据库·mysql·adb
光泽雨2 小时前
mysql中的事务
数据库·mysql
黑牛儿2 小时前
MySQL 备份与恢复详细步骤(新手版)
数据库·mysql·dba
fundoit2 小时前
MySQL问题收集
数据库·人工智能·mysql·智能体