数据平台“国产替代”掣肘在迁移?奇点云的工业制造实践解读

系列导读

如《"数据要素×"三年行动计划(2024---2026年)》指出,工业制造是"数据要素×"的关键领域之一。如何发挥海量数据资源、丰富应用场景等多重优势,以数据流引领技术流、资金流、人才流、物资流,对于制造企业而言是挑战更是机会。

奇点云梳理了与制造业多个细分领域客户的合作实践,逐篇呈现。

本篇以光纤通信企业为例,分享数据基础设施的"国产替代"实践。

背景:打破封锁,数据能力必须自主可控

光纤通信是我国重要基建,科技发展受全球瞩目。企业在打破海外垄断、以自主研发填补空白的同时,近年也开始将IT、DT等核心系统切换为信创环境,逐步实现国产替代,建设自主可控的数据能力。

"(数据能力建设)不仅是转型升级、降本增效的'秘密武器',帮助我们在激烈的市场竞争中脱颖而出,更是我们进一步保障供应链和数据资产安全的重要举措。"业内领先的某光纤企业曾在采访中表示。

以本篇分享的客户为例:客户在数年前已完成数据平台建设,并将数据实践从试点逐步拓展到了各个业务域。然而,因被美列入"实体名单",原平台供应商IBM"断供"------客户可以继续使用产品,但IBM不再提供版本更新、漏洞修复及其他技术支持。

对于企业而言,数据正对经营决策、生产管控发挥关键作用,数据基础设施的稳定、可靠、安全之重要性也不言而喻。因此,客户立即着手构建自主可控的数据基建,培育自有的数据能力。

难点: 海量数据, 迁移掣肘

  • 产品需支持信创、安全可控

数据平台产品适配信创环境,只能算达到"准入门槛"。要确保"客户可控",数据平台还需要满足:

· 产品足够稳定、可靠,能支撑越来越大量级的数据存算,并具备扩展能力,来满足不同阶段的数据业务需求。

· 采用可信开源技术,同时供应商需要具备开源技术运维的能力,时刻关注技术演进,第一时间修复开源组件可能出现的漏洞。

· 具备数据安全合规相关能力,包括敏感数据识别、数据分类分级、风险监控等等,保障数据资产安全的同时,为未来的数据要素流通做好准备。

  • 迁移海量数据的同时,保障数据业务不受影响

如前文所述,客户在数年前已经完成数据平台建设,积累了几十家子公司、几十个业务域的数据,数据量以TB为单位,覆盖数十个数据项目、数千个任务。不仅数据量极大,任务依赖关系也非常复杂。

将原有比较完整的数据建模体系铲平重建,显然是对数据资产的浪费。

因此,"替代"厂商不仅需要完成新平台的部署,还应完成历史数据的平滑、无损、准确、安全迁移,同时,数据业务保持正常运行,不因替换而搁置或中断。

大数据是有"重量"的,远不如拷贝单个文件那么简单,这也是许多企业在切换数据基建产品、进行国产替代的 关键 顾虑之一。

解决方案:自动化工具+专业团队,保障高效平滑迁移

奇点云数据云平台DataSimba是中立安全、稳定易用的数据云平台,从集成、研发、运维、治理到服务,为企业提供数据全生命周期运营管控的必备能力,且已完成从IT基础设施、基础软件到应用软件的全产业链信创产品兼容性互认证。

下文简单介绍从旧平台切换到DataSimba的实践过程。

  • 数据平台 分层规划 支持多角色 数据运营

客户面临典型的多子公司、多业务领域、多项目并行场景。除了总部的数据团队,还有各单位、应用供应商会在平台上进行数据开发,未来还可能接入上下游伙伴企业。

因此在前期,奇点云项目组从客户实际业务场景出发,制定了数据平台分层和项目划分策略,以保障平台的可维护性、可扩展性,提升后续各角色数据运营协作的效率。

具体如下:

· ODS(数据源层),负责原始数据的存储和管理。按系统名称进行拆分,有问题可快速定位到对应的业务系统。

· CDM(公共模型层),负责数据的清洗、转换、整合和计算,按业务领域,构建面向分析的业务过程通用模型。实际拆分为销售域、财务域、生产域、质量域、公共域等项目,项目间支持数据权限的逻辑隔离,并行开发互不影响。

· ADS(应用模型层),负责构建面向具体业务场景的分析模型。引用CDM数据,根据实际业务场景创建项目,如财务财报项目、财务管报项目等。

  • 盘点数据资产,制定迁移方案

在迁移的准备期,奇点云项目团队对现有数据和第一阶段迁移的数百个任务进行了盘点,经过血缘分析、资源评估、影响评估等前置分析,明确了迁移对象和策略。

奇点云大数据业务迁移流程

上图为奇点云标准的大数据业务迁移流程。

其中,以迁移分析阶段的数据盘点为例:梳理数据源表清单、迁移任务清单、表结构、数据量以及任务上下游依赖,最终形成完整的待迁移元数据资产清单。

在最后的数据验证环节,则需考虑一致性、准确性、性能和功能验证,设计详细的测试用例和执行方案。

  • 借助自动化迁移工具,实现平滑迁移

在迁移过程中,项目团队采用DataSimba内置的自动化工具,在数据预处理(清洗、格式转换)、批量迁移转化、数据校验等多个环节,显著减少繁琐的人工操作。以其中两项功能为例:

· 快速建表:利用DataSimba的数据集成功能,完成对项目中500张表的批量建表。

· 作业导入:DataSimba的作业批量导入功能,可以将预定义好的任务(包含任务名称、对应的项目以及依赖项等信息)快速导入平台。本次迁移,项目组快速导入了盘点好的数百个任务清单,改变原本创建任务、配置DAG必须依赖传统手工的情况,效率大大提升。

价值:好的国产,放心"替代"

在本次实践中,项目组遇到的最大挑战是项目周期短,而业务复杂度高,作业任务多,涉及到各分子公司的大量数据业务。因此,在完成产品选型和平台规划后,更重要的是基于业务情况制定可行的迁移规划,高效完成平滑迁移,同时保障数据业务不中断。

项目组采用自动化迁移代替"手工搬运",相较传统方案,耗时缩短了50%,节约了"替代"的时间成本。

"替代"后的新数据平台(DataSimba)完全自主可控,支撑各分子公司、合作伙伴完成数据开发与运营。以生产域为例,基于新平台完成了对工厂海量IoT数据的实时采集、存算,结合算法模型,辅助现场质量检测,优化生产工艺,保障光纤产品质量。

相关推荐
古希腊掌管学习的神34 分钟前
[机器学习]XGBoost(3)——确定树的结构
人工智能·机器学习
ZHOU_WUYI1 小时前
4.metagpt中的软件公司智能体 (ProjectManager 角色)
人工智能·metagpt
靴子学长2 小时前
基于字节大模型的论文翻译(含免费源码)
人工智能·深度学习·nlp
AI_NEW_COME3 小时前
知识库管理系统可扩展性深度测评
人工智能
海棠AI实验室3 小时前
AI的进阶之路:从机器学习到深度学习的演变(一)
人工智能·深度学习·机器学习
hunteritself3 小时前
AI Weekly『12月16-22日』:OpenAI公布o3,谷歌发布首个推理模型,GitHub Copilot免费版上线!
人工智能·gpt·chatgpt·github·openai·copilot
IT古董4 小时前
【机器学习】机器学习的基本分类-强化学习-策略梯度(Policy Gradient,PG)
人工智能·机器学习·分类
centurysee4 小时前
【最佳实践】Anthropic:Agentic系统实践案例
人工智能
mahuifa4 小时前
混合开发环境---使用编程AI辅助开发Qt
人工智能·vscode·qt·qtcreator·编程ai
四口鲸鱼爱吃盐4 小时前
Pytorch | 从零构建GoogleNet对CIFAR10进行分类
人工智能·pytorch·分类