四川省税务局CDH国产化替代实践

"传统数据仓库对于数据处理时效较低,且无法处理实时增量数据及数据变更,同时,在面对海量税务数据大规模进行查询分析等方面存在一些挑战。我们希望尽快寻找到一款能够替代CDH,并且具备灵活扩展能力的大数据解决方案,以应对复杂多元的税务数据处理场景。"

------四川省税务局大数据风险管理局技术专家 肖斌

从线下窗口办理到"非接触式"办税、从领取纸质发票到扫码开具电子发票......税务系统作为数字经济发展的重要支撑,正不断向智慧税务转型。在四川省,相关税务部门也一直在开展税务数字化的积极探索和有益实践。

为了应对日益增长的纳税主体数量和多元化的涉税经营活动,四川省税务局于2022年3月正式启动税务大数据平台建设项目,以优刻得私有化大数据产品USDP作为技术支撑,构建了符合信创要求的智能大数据平台,加速"以数治税",实现税费全业务、全流程、全数据的"云化"打通。

一、以数治税,数据处理时效提升100%

优刻得携手四川省税务局,为当地建设了税务大数据中心,通过部署大数据平台和分析工具集,形成安全可靠、运行高效、数据完备、运行稳定的大数据支撑平台,满足了四川省各地市税务风险管理人员的数据分析和治理诉求,更为其湖仓一体平台的全面建设奠定了坚实基础。

USDP是优刻得自主研发的智能化、轻量级的大数据基础服务平台,提供一站式大数据集群管理和运维能力,能够帮四川省税务局快速构建起大数据的分析处理能力,并大大简化其对大数据基础平台原生且复杂的维护控制工作,使得税务部门能够聚焦于数据分析及价值挖掘中,为业务赋能。

自四川省税务局USDP大数据平台项目上线以来,完善了对多源异构数据采集与统一存储能力,实现了税务数据全生命周期的统一管理,数据处理时效提升100% ;而USDP的自动化运维管理功能,则帮助四川税务局平台维护性工作减少了70%

二、CDH国产化替代的理想选择

税务工作开展的每一步都离不开数据。2020年,四川省税务局大数据风险管理局成立,成为国家税务总局主管组织指导全国税收大数据和风险管理相关工作的机构。其成立之后,便是基于Hadoop架构下的CDH构建大数据平台,实现数据的统一汇聚,并对税务数据进行高效管理。但跟随税务业务数据爆发式增长,单一发票业务表就已累计120亿条数据,对大数据平台的稳定性和扩展性提出了更高要求。

优刻得USDP智能大数据平台,全面兼容基于CDH构建传统大数据处理业务架构,且满足国产化要求,并将大数据集群部署时间从数天缩短至数分钟,真正实现现有生产环境的平滑迁移;同时,USDP支持Hadoop、Hive、HBase、Spark、Flink、Hudi、Iceberg、Atlas等关键大数据组件,可一站式服务多端数据采集、入湖及治理工作,为税务系统数据的综合分析和智能化应用提供有力支撑。

值得一提的是,USDP还具备丰富的大数据生态技术,使得平台具备良好的存算扩展能力,可靠支撑四川省税务局从数据仓库架构向湖仓一体架构演进。当下,通过对四川省税务局现有数据进行精细化分析,优刻得助力税局完善了各类数据模型和数据关系设计文档,实现了数据模型、数据关系对业务的完整准确建模与描述,并基于USDP构建了全新的数据资产管理与数据治理平台,以此充分应用到后续的税务业务中。

由于税务系统掌握着纳税主体的大量敏感数据,对数据风险管控和合规也有着特殊的要求。而USDP完全自主可控,全面适配信创生态,经国家权威机构检测,代码自主率高达95%以上;结合Kerberos、LDAP等系列安全组件,以及通过 Ranger细粒度权限控制,基于USDP在客户本地构建私有化数据湖仓,持续提升大数据服务的安全性保障能力。平台全面支持集群级监控,运维人员可实时获取事件告警和异常定位等,做到对整个平台的可视化、自动化监控,在减轻运维负担的同时,保障平台的健康稳定运行。

四川省税务局对优刻得的产品和服务给予了高度评价:"优刻得的专业技术和快速响应服务确保了大数据平台的稳定运行。特别是在税务人员智税大赛期间,USDP平台展现的强大数据处理和分析能力,为大赛的顺利进行提供了有力保障。"

目前,在智能大数据平台合作的基础上,四川省税务局正与优刻得积极探索AI和大模型技术在税务领域的应用,以期实现更深层次的数字化转型,通过充分运用税收大数据,实现税费优惠政策与适用对象的精准智能匹配,并进行个性化办税引导,加速智慧税务发展。

相关推荐
Lill_bin12 小时前
深入理解ElasticSearch集群:架构、高可用性与数据一致性
大数据·分布式·elasticsearch·搜索引擎·zookeeper·架构·全文检索
涛思数据(TDengine)12 小时前
TDengine 与 SCADA 强强联合:提升工业数据管理的效率与精准
大数据·时序数据库·tdengine
isNotNullX13 小时前
如何用SQL Server和Oracle进行数据同步?
大数据·数据库·sql·oracle
RwTo14 小时前
Elasticsearch 聚合搜索
大数据·elasticsearch·搜索引擎·全文检索
isNotNullX14 小时前
HBase在大数据实时处理中的角色
大数据·数据库·hbase
白总Server14 小时前
MySQL在大数据场景应用
大数据·开发语言·数据库·后端·mysql·golang·php
求学小火龙15 小时前
ElasticSearch介绍+使用
java·大数据·elasticsearch
檀越剑指大厂15 小时前
【Elasticsearch系列六】系统命令API
大数据·elasticsearch·搜索引擎
数据运营新视界15 小时前
你知道企业架构中核心的4大架构联系和不同吗?
大数据·架构
h1771134720516 小时前
基于区块链的相亲交易系统源码解析
大数据·人工智能·安全·系统架构·交友