在数字政府建设的浪潮中,政务大数据平台正面临着前所未有的挑战与机遇。作为承载着全省 2000 多亿条公共数据资源的福建大数据一体化公共数据平台,其技术架构的每一次演进都牵动着整个数字福建建设的神经。福建大数据一级开发有限公司作为省级公共数据资源一体开发主体,在多年的实践中深刻体会到传统湖仓分离架构在政务场景下的局限性,最终通过引入 Databend 存算分离计算引擎,成功构建了真正意义上的湖仓一体化平台。
政务数据治理的复杂性挑战
政务数据治理有着其独特的复杂性。与互联网企业不同,政务数据平台的建设方与使用方往往分离------平台由专业的数据公司建设运维,而真正的使用者是各个省直部门。这种"建用分离"的模式带来了前所未有的挑战。

福建大数据一体化公共数据平台采用"1+1+3+1+N"的整体架构,其中数据汇聚共享平台作为核心枢纽,承担着横向对接全省各厅局系统、纵向连通国家与地市的重要职责。然而,随着接入部门从最初的几家扩展到 90 多家,传统架构的弊端逐渐显现。
"当一下子有二三十家省厅同时接入时,我们发现沟通成本和运维支撑成本急剧上升,"福建大数据一级开发有限公司的技术负责人吴世钦回忆道,"每个省厅的技术水平不同,对组件的需求也各异,我们疲于奔命地做适配工作,效果却不尽如人意。"
从数据共享到湖仓一体:技术架构的四次演进
福建大数据一体化公共数据平台的发展历程,是一部政务数据治理技术不断演进的缩影。从最初的数据共享到如今的湖仓一体,每一次架构升级都承载着对更高效数据治理的追求。

1.0 阶段:数据共享平台的起步探索
在 1.0 阶段,福建大数据构建了基于 ETL 的数据共享平台。这一阶段的核心特征是平台不存储数据,更多地扮演着"数据桥梁"的角色。当各部门需要数据时,平台负责从源系统实时抽取并传输,实现了基础的数据流通能力。然而,这种模式的局限性很快显现:同一份数据如果有多个部门申请,就需要多次向数据源部门取数,不仅增加了源系统的负担,也影响了数据获取的效率。更重要的是,这种模式无法支撑复杂的数据分析和治理需求,数据的价值难以得到充分挖掘。
2.0 阶段:集中式汇聚的能力提升
基于 1.0 阶段的经验,福建大数据在 2.0 阶段引入了关系型数据库(RMDB),构建了集中式的数据汇聚共享平台。这一阶段的核心理念是"数据一次汇聚,多次共享",平台开始承担数据存储的职责。集中式架构带来了显著的改进:数据只需汇聚一次,就可以支撑多个部门的共享需求,大大提高了数据利用效率。同时,平台支持多种数据共享交换方式,为后续的数据治理奠定了基础。但随着数据量的快速增长,集中式架构的瓶颈开始显现。单一数据库难以承载海量数据的存储和处理需求,特别是非结构化文件的存储成为了技术难点。数据的实时性处理能力也受到了限制。
3.0 阶段:分布式架构的技术跃升
为了突破 2.0 阶段的技术瓶颈,福建大数据在 3.0 阶段引入了 Hadoop 大数据技术栈,构建了分布式的数据汇聚共享平台。这一阶段实现了质的飞跃:平台具备了海量结构化和非结构化数据的汇聚能力,支持实时数据接入,并引入了数据质量检测机制。3.0 阶段的另一个重要创新是引入了"数据接入编目"标准。这一机制要求数据在汇聚前必须先进行编目注册和审批,确保了数据汇聚的高质量和规范性。这种做法不仅提高了数据治理水平,也为后续的数据资产管理奠定了基础。
然而,3.0 阶段也暴露出新的问题:平台主要专注于汇聚和共享,缺乏强大的数据分析和治理能力。当需要进行大型分析时,数据往往需要导出到专门的分析系统中处理,处理完成后再导回平台。这种"数据搬家"不仅效率低下,也影响了数据治理的效果。
4.0 阶段:湖仓分离的架构探索

基于 3.0 阶段的不足,福建大数据在 4.0 阶段构建了湖仓分离架构,这标志着向现代化数据平台的重要转型。4.0 架构采用了典型的湖仓分离设计:数据湖使用分布式对象存储实现海量数据汇聚,数据仓则选择 MPP 数据库和 Hadoop 来提供数据管理和分析能力。这一阶段实现了多项重要突破:流批一体的数据处理能力、完整的数据生命周期管理、多样化的数据存储支持。更重要的是,平台从单一用户模式转向了多租户模式,将数据治理的权限下放给各省厅,让各部门可以在平台上构建自己的数据专区。
4.0 架构在理论上是完美的,也确实解决了前期的诸多问题。然而,在实际应用中,特别是在政务场景的"建用分离"模式下,新的挑战开始显现。
传统湖仓分离架构的四大痛点
在 4.0 阶段,福建大数据采用了典型的湖仓分离架构:数据湖使用分布式对象存储实现海量数据汇聚,数据仓则选择 MPP 数据库和 Hadoop 来提供数据管理和分析能力。这种架构在理论上完美,但在实际应用中却暴露出四个核心问题:
组件繁多,适配成本高企。平台集成了十多种大数据组件,每种组件都有不同的适配协议和安全管理方式。更为复杂的是,三大业务平台(汇聚共享、开发、开放)的整合需要大量的适配工作,而各省厅对组件的个性化需求更是让开发成本居高不下。
数据孤岛严重,搬家频繁。数据从对象存储到 HDFS 再到 MPP 数据库的多次搬迁,不仅影响了实时性,更让省厅用户体验极差。一些省厅甚至选择绕过数据湖,直接将数据导入数据仓,导致资源配置失衡。
外部表方案局限性明显。全表扫描的性能问题和单字段分区的限制,让外部表方案在复杂查询场景下表现不佳,难以满足多样化的业务需求。
扩展性差,维护成本高。MPP 数据库计算与存储的高度耦合,使得每次扩容都需要停机维护,协调成本巨大。同时,对 SSD 存储的依赖也推高了硬件成本。
Databend:存算分离的技术突破
面对这些挑战,福建大数据开始探索新的技术路径。在尝试了 Iceberg + Spark/Flink 等主流方案后,发现虽然能够部分解决问题,但在跨引擎场景下仍存在数据搬迁,且在高并发服务和复杂场景下表现不佳。
转机出现在与 Databend 的邂逅。这个专注于云原生数据仓库的开源产品,以其轻量级的特性和存算分离的设计理念,与福建大数据的需求高度契合。Databend 的核心优势在于提供强大的计算能力,同时可以直接使用对象存储,这与福建大数据现有的基础设施形成了完美的互补。
"我们惊喜地发现,可以通过一个计算引擎把整个链路打通,"吴世钦表示," Databend 的设计理念与我们的需求非常吻合------它专注于提供计算能力,存储则可以充分利用我们已有的对象存储资源。"
湖仓一体 4.1:存算分离,架构重构
基于 Databend,福建大数据构建了 4.1 版本的湖仓一体架构。与 4.0 版本湖仓边界清晰不同,4.1 版本已经没有严格的湖仓边界,真正实现了湖仓一体。

新架构的核心是构建存算分离的计算引擎集群,Databend 作为枢纽,向上为平台提供数据管理和分析能力,向下通过对象存储提供高效存储。更重要的是,通过 Databend 的租户、权限、事务等基础能力,平台成功打造了流批一体、一数多用的核心能力。
为了实现对三大平台的整合以及数据全生命周期管理,福建大数据针对性地构建了四大集群:汇聚集群、治理集群、共享集群和服务集群。这四大集群相对独立运行,避免相互干扰,同时采用统一的接入引擎标准,实现了技术栈的收敛。
四大场景:技术创新的业务价值
场景一:统一海量数据入湖,实现准实时查询
汇聚集群的建设是整个平台的基础。在政务场景下,数据汇聚面临着独特的挑战:数据敏感性高、质量要求严格、技术门槛需要降低。福建大数据采用了三阶段汇聚模式,通过 Kafka 实现轨迹表的秒级汇聚,再利用 Databend 的 Stream 能力完成数据合并。

这种设计的巧妙之处在于,它不仅实现了技术上的高效汇聚,更重要的是降低了各省厅的使用门槛。传统模式下,各部门需要自行处理轨迹数据的合并工作,技术要求高、成本支出大。新架构下,平台统一完成合并操作,各部门可以直接使用高质量的合并数据。
目前,轨迹表数据可实现秒级汇聚,合并表在 5-15 分钟内即可查用,大大提升了数据的时效性和可用性。
场景二:精准管控,弹性调度,实现可控集群计算资源管理
治理集群采用了云原生+计算引擎队列的双重管理模式,这是对传统资源管理方式的重要创新。在政务场景下,不同部门的数据治理任务往往具有突发性和资源消耗大的特点,如何确保资源的合理分配和高效利用成为关键挑战。

通过容器化技术,平台实现了 CPU 与内存的全局资源管理,确保各集群间的计算隔离。同时,通过队列机制进行任务并发与资源分配控制,设置等待区和执行区,有效防止单个任务或用户耗尽集群资源。
这种双重管理模式不仅保障了系统的稳定性,更重要的是提供了精细化的资源控制能力,让平台能够同时支撑多个部门的大型数据治理任务。
场景三:一数多用,跨专区共享,提升治理效率
共享集群的建设彻底解决了数据搬家问题,这是 4.1 架构最具创新性的特性之一。通过 Databend 的注册表能力,A 厅的数据可以直接注册到 B 厅的专区中,B 厅无需搬迁即可进行融合治理。

这一创新的业务价值巨大。以人口库治理为例,涉及十多个厅局、一百多张表的复杂项目,在传统模式下需要大量的数据搬迁和协调工作。新架构下,通过注册表机制可以直接实现跨部门的数据融合治理,不仅提高了效率,也避免了数据冗余。
三医专区(医疗、医药、医保)的建设更是这一能力的典型应用。通过数据注册,医保数据、医疗数据可以直接在三医专区中进行融合分析,为跨部门的业务协同提供了强有力的数据支撑。
场景四:集群主键+本地缓存,构建秒级并发查询
服务集群专注于高并发查询场景的优化。在政务服务中,点查类业务场景非常常见,如身份验证、证照查询等,这些场景对响应速度要求极高。

服务集群采用了全局主键+本地缓存的组合方案。利用 Databend 的全局主键和索引能力,针对特定输入字段建立全局主键,解决点查广播问题。同时,支持本地硬盘缓存和进程内存缓存,高频查询语句通过缓存机制进一步提升响应能力。
对于需要更高并发能力的业务场景,平台还提供了事务型数据库的同步机制,确保能够支撑各种复杂的查询需求。目前,服务集群可支持 500 以上高并发查询,97% 的请求在1秒内返回结果。
四大显著成效:从技术优化到民生服务
成效一:实现湖仓一体化,数据全生命周期统一管理
通过 Databend 存算分离架构,福建大数据成功实现了湖仓一体化的数据全生命周期统一管理。平台提供了统一的 SQL 接口、统一的计算引擎、统一的元数据管理和统一的数据存储,彻底收敛了技术栈。
这种统一化管理的价值在于,它不仅简化了技术架构,更重要的是降低了使用门槛。各省厅只需要掌握标准 SQL 即可完成从数据汇聚、治理、开发到共享的全流程操作,大大提高了数据治理的效率和质量。
成效二:架构优化,降本增效
新架构在性能和成本方面都取得了显著改善。海量数据 15 分钟内可查可用,支持 500 以上高并发点查服务,97% 的查询在 1 秒内返回结果。数据压缩率达到 50%,节省 2-5 倍的存储空间。
更重要的是,平台支持版本在线滚动升级与回退、节点无感知扩缩容,COUNT 稽核实现秒级返回,稽核任务减少80% 以上。通过注册表机制,6 万多张表避免了搬迁,活跃表最高共享 10 余次,大大降低了运维成本和存储冗余。
成效三:数据供得出,全省目录一本账
通过统一数据存储和元数据管理,福建大数据建立了省级公共数据资源目录与部门目录、地区目录的实时更新机制,实现了全省数据资源"一本账"管理。
目前,平台覆盖全省 98 个省直部门、9 市 1 区,累计共享交换 2000 多亿条数据,接口调用超过 60 亿次。在数据治理方面,已建成人口、法人、电子证照等五大基础库,医疗健康、市场监管、文化旅游、生态环境等九大主题库,以及应急指挥、海洋渔业、交通运行监测调度、营商环境、台胞台企等十个专题库。
这种"一本账"管理模式的价值在于,它让数据真正"找得到、用得上"。通过统一的目录体系,各部门可以快速定位所需数据,大大提高了数据共享和应用的效率。
成效四:数据最多采一次,数据多跑路,群众少跑腿
基于 HTAP 能力,平台实现了一份数据直接对外提供服务的能力,支撑全省 469 个政务服务事项实现"数据最多采一次"。这一成果直接惠及民生,让数字政府建设的成果真正落地。
目前,平台已累计赋能政务办件 2695 万件,自动回填表单字段约 2.53 亿项,真正实现了"数据从群众中来,到群众中去"。通过事项场景化精准供数、事项数据化表单拆分、要素标准化数据聚合等机制,用户历史填报数据和部门共享数据可以自动输出,用户填报数据经过标准化治理后回流到平台,形成了良性的数据循环。
架构演进的深层思考
回顾福建大数据一体化公共数据平台从 1.0 到 4.1 的演进历程,可以清晰地看到政务数据治理理念的深刻变化。从最初的"数据桥梁"到"数据仓库",再到"数据湖仓",最终实现"湖仓一体",每一次跃升都体现了对数据价值认知的不断深化。
1.0 到2.0 的转变,解决的是数据复用问题;2.0 到 3.0 的升级,突破的是数据规模瓶颈;3.0 到 4.0 的演进,实现的是数据治理能力的全面提升;而 4.0 到 4.1 的优化,则是对用户体验和运维效率的极致追求。
这种演进路径反映了政务数据平台建设的一个重要规律:技术架构必须与业务需求和组织模式相匹配。在政务场景下,平台不仅要具备强大的技术能力,更要考虑使用者的技术水平差异、运维成本控制、以及跨部门协作的复杂性。
存算分离在政务场景的独特价值
Databend 存算分离架构在福建大数据的成功应用,揭示了这一技术路线在政务场景下的独特价值。与传统的湖仓分离架构相比,存算分离不仅是技术层面的优化,更是治理理念的革新。
技术栈的极简化成为了最大的亮点。通过单一计算引擎支撑全生命周期的数据处理,不仅降低了系统复杂度,更重要的是降低了使用门槛。各省厅无需掌握多种技术栈,只需要熟悉标准 SQL 即可完成复杂的数据治理工作。
数据流转的零搬迁彻底改变了数据治理的工作模式。传统模式下,数据在不同处理阶段需要在不同存储系统间搬迁,不仅耗时耗力,还容易出错。存算分离架构下,数据始终存储在对象存储中,不同的处理需求通过不同的计算集群来满足,实现了真正的"一数多用"。
资源配置的弹性化解决了政务平台资源利用率不高的问题。计算资源可以根据实际需求动态调整,存储资源则可以充分利用对象存储的成本优势,大大降低了平台的总体拥有成本。
多租户模式的治理创新
福建大数据 4.1 架构的另一个重要创新是多租户模式的深度应用。通过构建汇聚、治理、共享、服务四大集群,平台实现了不同业务场景的资源隔离和能力专业化。
这种设计的巧妙之处在于,它既保证了各省厅数据的安全隔离,又实现了计算资源的统一调度。每个省厅可以在自己的专区内进行数据治理,同时又可以通过注册表机制访问其他部门的数据,形成了"物理隔离、逻辑共享"的理想状态。
更重要的是,这种模式极大地提升了数据治理的效率。以人口库治理为例,涉及十多个厅局、一百多张表的复杂项目,在传统模式下需要大量的数据搬迁和协调工作,而在新架构下,通过注册表机制可以直接实现跨部门的数据融合治理。
民生服务的数字化赋能
"数据最多采一次"项目的成功实施,展现了技术创新对民生服务的深刻影响。通过 HTAP 能力,平台可以直接对外提供服务,支撑全省 469 个政务服务事项,累计赋能政务办件 2695 万件。
这一成果的取得,离不开存算分离架构的技术支撑。服务集群通过全局主键和本地缓存的组合,实现了秒级的高并发查询能力,97% 的请求在1秒内返回结果。这种性能表现,为政务服务的数字化转型提供了坚实的技术基础。
更深层的意义在于,数据从"沉睡"状态变为"流动"状态,真正实现了"数据多跑路,群众少跑腿"。每一次表单的自动填充,每一次证照的电子化调用,都体现了数据要素价值的释放。
关于 Databend
Databend 是一款开源、弹性、低成本,基于对象存储也可以做实时分析的新式湖仓。期待您的关注,一起探索云原生数仓解决方案,打造新一代开源 Data Cloud。
👨💻 Databend Cloud:databend.cn
📖 Databend 文档:docs.databend.cn
💻 Wechat:Databend
✨ GitHub:github.com/databendlab...