智慧城市数据大融合的几点想法

随着信息化的不断深入，产生了各种类型的数据，包括结构化数据和非结构化数据，用不同的方式呈现出来，如数值型、文本型、图形图像、音频视频、传感器信号等格式。这些数据来源于现实世界，描述了现实世界，根据这些描述现实世界的数据，我们应该可以归纳出一定的社会规律，自然规律。并且可以用这些总结出来的规律来辅助指导我们现实世界的发展。那么面对如此繁多的数据，我们该如何找出他们的的联系，总结出一定的社会规律，自然规律呢？这就需要我们将数据按照合理的方式融合起来。由于这些数据多产生于不同的来源、区域、部门，系统，大多是离散性分布，很难产生联系。这就需要将这些数据存储在一起，采用逻辑上统一，物理上分布式，地域上分中心，领域上分主题的方式。以杭州市人口数据为例，逻辑上统一，我认为是杭州市下辖各县市人口数据的库表结构统一，类似银监会EAST现场检查，定义好了库表结构，通过银监会文件通知的方式下达各银行金融机构，按照要求加工好对应的数据。物理上分布式，地域上分中心，指的是杭州市数据中心是一个区域中心，各县市数据中心是杭州数据中心的子中心，各县市人口数据存在本地，由各县市自行维护，通过互联网组成分布式数据库，杭州中心的数据节点和各县市的数据中心在同一专网内，采用同一数据存储介质，同一逻辑结构，杭州中心可以访问下一级中心数据，下一级中心可以通过授权访问上一级中心的数据。为了摆脱区域限制，此部分宜采用云存储。领域上分主题，这个指的是按区域，按部门，按业务领域，采用星型模型或者雪花模型来构建模型，做相应的数据分析，数据应用，既可以是纵向也可以是横向。毫无疑问智慧城市数据大融合是一件非常复杂庞大的工程，如同一颗大树，有干，有枝，有叶。我认为按照数据从产生到汇集的整个过程来看，工程量最大的应该是县市区的子中心，区域中心的数据应该来源于子中心，国家中心的数据应该来源于区域中心，这样才保证了数据来源的唯一性。另外上级中心使用并返回给下级中心数据的过程中，也会对下级中心有一个督察的作用。当然了最好能根据大数据时代的发展，设立相应的组织机构，比如成立中国数据中心委员会。真正想让数据起作用，想让数据中心运转起来，组织机构的作用往往比技术更重要，就像一个企业数据中心像建起来比如是领导层重视，是一把手工程一样。县市区的子中心只要按照同一套技术业务标准建设，至于谁去建，哪家公司去建，这个就不是那么重要了。

接下来我想说说智慧城市大融合里面最重要的部分，县市区子中心数据如何融合的问题。单一城市的数据大概为城市部件数据、各业务主管部门管理数据(包括纸质文档，信息化系统等)等。城市部件的数据采集相对来说难于各业务主管部门管理数据，因为城市部件产生的数据有结构化和非结构化的，比如传感器产生的信号数据，摄像头，无人机产生的图片视频数据，路灯，燃气，电路等等产生的数据。此部分数据的自动采集，我们是否全部攻克，还是部分攻克我还不知道。各业务主管部门管理数据的采集，从技术上来看，无论是纸质文档还是电子证照应该都不成问题。由于目前主流市场中都是用hadoop的HDFS作为分布式文件系统的底层存储。我们采集的数据存放在县市区数据中心搭建的hadoop的大数据平台上，形成数据池，即操作型数据。

操作型数据按照要求的频率加载到数据仓库，数据加载的方式按照每次新数据是增量还是全量，分为全量加载和增量加载。数据仓库按照业务逻辑组织起来，设计相应的库表结构。这一部分和业务联系非常紧密，是由业务应用驱动的。比如一个疑犯追踪业务系统，首先我们需要采集摄像头的人脸数据与数据仓库中人员数据进行关联，由于此业务需要有人脸库，疑犯库等相关数据，采集相关数据到数据池，再按照星型模型或者雪花构建疑犯主题，将数据组织在疑犯主题下，形成疑犯的相关信息，摄像头返回的人脸与此疑犯信息匹配，匹配上了，那疑犯的过往相关信息将全部一目了然。目前感觉瓶颈在数据实时采集上，是否足够实时，还有数据安全性和丰富性上，不够安全别人不敢把数据给你，不够丰富很难起到作用。