前言
随着信息化和大数据时代的到来,数据资产变得至关重要,企业纷纷上线多种软件系统和移动端应用以适应这一变化。这些系统和应用虽然发挥了各自的优势,但也导致了信息孤岛问题。为了解决这一问题,数据中台和异构系统集成技术应运而生,它们整合多样化的系统,实现数据一体化和标准化,提高数据共享能力,减少重复工作量,提升数据治理水平。未来,企业将趋向多元化发展,从单一产品供应转向提供整体解决方案,从局部服务转向全方位整合。尽管信息化系统日益增多,但没有单一系统能解决所有问题,每个系统都有其独特优势。在大数据时代,信息化建设将从单一系统向多系统应用发展,产业互联网将从企业内控管理转向产业协同,异构系统的数据集成将不同来源和格式的数据集中采集、映射并分发,以实现全面的数据共享。
企业信息化分析
如下图的场景中可以将SAP强大的企业资源管理和OA强大的审批流程结合起来,实现ERP业务数据流程的严谨管控的同时可以实现合同、付款等重要节点的评审会签和流程审批,同时也可以将采购端、销售端供销商的自主下单和订单跟踪,物流跟进、款项发票对账分发到钉钉、企业微信、公众号、小程序等多端应用中去。甚至针对一些电商的用户,可以将电商系统和企业内部ERP集成起来形成业务闭环,把企业生产出来的商品即时发布到电商平台,把电商平台的订单、发货、收款数据再取回来,在ERP形成了线上业务数据和线下B端批发业务数据的整合,打通了企业的外循环。
要实现企事业单位异构系统的集成也不是一件简简单单的小事,企业普遍的做法是找自己的软件服务商去二次开发,最终会发现A软件厂商说我的接口没问题对方系统有问题,或者是双方的系统都会出现二次开发的可能,每个软件供应商尽可能要保障自己系统的稳定、流程顺畅,把一些疑难问题跑给对方软件公司,有很多客户方也不具备全面的整合能力,其实是甲乙双方打比赛缺少了裁判和评委。数据中台的出现就是要把各方系统中不一致、不标准的数据规范统一标准化,不能标准化的通过抽取双方系统的主数据及相关枚举列表数据做映射关系实现标准化,同时分发给各个系统的数据结构经加工后保证符合对方系统接收的要求。
解决方案
(1)通过数据集成平台企业数据总线实现数据集成
BusData数据总线集成是一种中心辐射型或总线型的数据集成架构,它通过数据中台中间件实现规则制定、数据采集、映射转换、管道调度和定向分发。这种架构减少了专用集成代码的编写量,提高了集成接口的可维护性和可管理性,能够屏蔽不同连接对象之间的差异,实现透明连接。它将复杂的网状结构简化为星形结构,增强了硬件的可靠性和可用性。BusData数据总线集成包括EDI(电子数据交换)和ESB(企业服务总线)。EDI遵循国际标准消息格式,促进了不同国家和企业间的商业文件电子化交换,推动了国际贸易的发展。ESB则标志着数据治理进入面向服务集成的SOA时代,它基于Web标准开发接口程序,使用中间件产品作为集成平台,实现了开放且灵活的应用集成方式,对Web服务进行注册、调度和管理,使得不同软件系统能够通过Web调用API接口进行交互。
(2)通过点对点现实现数据集成
点对点数据集成主要用于两个系统间的直接连接,包括端到端、端到云和云到云等场景。这种方法在两个系统对接时可能有效,但面对多系统复杂数据流向时显得力不从心,且一旦涉及系统升级或更换,可能需要重新进行对接工作。点对点集成架构缺乏集中管理和监控接口服务的能力,仅支持一对一数据交换,协议不一致时开发难度增加。此外,这种集成方式是紧耦合的,任何接口的变更都可能影响到所有相关接口程序,需要重新调试或开发。长期来看,点对点集成的成本较高,可用性和可维护性较差。
(3)流数据集成
流数据集成是一种实时数据采集技术,它使用如Kafka、Kinesis、Flume等流处理工具对NoSQL数据库进行监控和复制,并根据需要进行数据预处理,如去重、去噪等,最终将处理后的数据写入目标存储。以Kafka为例,其Connect API允许构建流数据管道,利用Kafka的可扩展性,快速实现大规模数据的流入流出,构建低延迟的数据通道。Kafka Streams API则用于在Kafka上构建分布式、可扩展、容错的应用程序,它基于一系列流处理功能,如事件时间处理、迟到数据处理和状态管理,整合了Consumer和Producer API,增强了数据流处理能力。使用Kafka作为流处理平台可以避免为每个目标sink、数据存储或系统创建定制化的ETL组件,允许数据源的数据被抽取并作为结构化事件放入平台中,然后通过流处理进行转换。
(4)爬虫数据采集
爬虫数据采集是一种自动化从网站获取信息的技术,它通过程序或脚本按照特定规则抓取互联网上的信息。爬虫分为通用和聚焦两种类型,通用爬虫从一个或多个初始URL开始,不断抓取网页并从中抽取新的URL,直到满足停止条件;而聚焦爬虫则更复杂,需要过滤无关链接,保留与特定主题相关的链接。常见的爬虫工具如Octoparse、WebCopy等,能够提取网页中的文本、图片、音频、视频等数据,并将其存储在本地系统中。