前言

本文主要介绍的内容有：

大数据是什么
华为大数据解决方案介绍
华为大数据解决方案功能组件介绍
华为大数据应用分享

一、大数据是什么

1.大数据的产生和发展

1.1 大数据产生的背景

大数据产生的背景主要来源于三个方面：信息科技进步、云计算技术兴起、数据资源化趋势。

1.1.1 信息科技进步

随着手机及其他智能设备的兴起，全球网络在线人数激增，我们的生活已经被数字信息所包围，而这些所谓的数字信息就是我们通常所说的"数据"，我们可以将其称为大数据浪潮，由此可以看出，智能化设备的不断普及是大数据迅速增长的重要因素。

面对数据爆炸式的增长，存储设备的性能也得到相应的提高。计算机产业会进行周期性的更新换代，表现在计算能力和性能的不断提高。同时，以前的低速带宽也已经远远不能满足数据传输的要求，各种高速高频带宽不断投入使用，光纤传输带宽的增长速度甚至超越了存储设备性能的提高速度。由此可以看出，物联网的广泛应用、存储设备性能的提高、网络带宽的不断增长也是大数据迅速增长的重要因素。

综上所述，智能设备的普及、物联网的广泛应用、存储设备性能的提高、网络带宽的不断增长正是信息科技进步的体现，它们为大数据的产生提供了储存和流通的物质基础。

1.1.2 云计算技术兴起

云计算技术是互联网行业的一项新兴技术，它的出现使互联网行业产生了巨大的变革，我们平常所使用的各种网络云盘，就是云计算技术的一种具化表现。云计算技术通俗的来讲就是使用云端共享的软件、硬件以及各种应用，来得到我们想要的操作结果，而操作过程则由专业的云服务团队去完成。我们通常所说的云端就是"数据中心"，现在国内各大互联网公司、电信运营商、银行乃至政府各部委都建立了各自的数据中心，云计算技术已经在各行各业得到普及，并进一步占据优势地位。

云空间是数据存储的一种新模式，云计算技术将原本分散的数据集中在数据中心，为庞大数据的处理和分析提供了可能，可以说云计算为大数据庞大的数据存储和分散的用户访问提供了必需的空间和途径，是大数据诞生的技术基础。

1.1.3 数据资源化趋势

根据产生的来源，大数据可以分为消费大数据和工业大数据。

消费大数据：消费大数据是人们日常生活产生的大众数据，虽然只是人们在互联网上留下的印记，但各大互联网公司早已开始积累和争夺数据，谷歌依靠世界上最大的网页数据库，充分挖掘数据资产的潜在价值，打破了微软的垄断。Facebook基于人际关系数据库，推出了graph search搜索引擎；在国内阿里和京东两家最大的电商平台也打起了数据战，利用数据评估对手的战略动向、促销策略等等。
工业大数据：在工业大数据方面，众多传统制造企业利用大数据成功实现数字转型表明，随着"智能制造"快速普及，工业与互联网深度融合创新，工业大数据技术及应用将成为未来提升制造业生产力、竞争力、创新能力的关键要素。

1.2 大数据发展历程

大数据产生和发展主要分为三个阶段：萌芽期、成熟期、大规模应用期。

1.2.1 萌芽期(20世纪90年代至21世纪初)

随着数据挖掘理论和数据库技术的逐步成熟，一批商业智能工具和知识管理技术开始应用，比如：数据仓库、专家系统、知识管理系统等。

商业智能工具：数据仓库、专家系统。
知识管理技术：知识管理系统。

这一阶段可以看做是大数据发展的萌芽时期，在当时大数据还只是作为一种构想或者假设被极少数的学者进行研究和讨论，其含义也仅限于数据量的巨大，并没有更进一步的探索有关数据的收集、处理和存储等问题。

1.2.2 成熟期(21世纪初至2010年)

Web2.0应用的迅猛发展，非结构化数据大量产生，使得传统方法难以应付，而大数据技术却快速突破，大数据的解决方案也逐渐的走向成熟，大数据在成熟期形成了并行计算与分布式系统两大核心技术。

谷歌的GFS和MapReduce等大数据技术受到追捧，开源技术Hadoop平台也开始大行其道。

并行计算：MapReduce。
分布式系统：GFS、Hadoop

这一阶段被看做是大数据的发展时期，大数据作为一个新兴名词开始被理论界所关注，其概念和特点得到进一步的丰富，相关的数据处理技术相继出现，大数据开始展现活力。

1.2.3 大规模应用期(2011年至今)

2010年以后大数据开始广泛应用到各行各业，人们开始用数据来驱动决策，社会信息化、智能化程度也大幅度提高。

2012年世界经济论坛在瑞士达沃斯召开，会上讨论了大数据相关的系列问题，发布了名为《大数据，大影响》的报告，向全球正式宣布大数据时代的到来。

这一阶段被看做是大数据的完成期，大数据被各行各业关注和研究，研究大数据在各个领域中的应用情况，以及大数据的技术架构。各国政府也为应对大数据时代的到来，制定相应的战略。

2.大数据的基本概念

2.1 大数据的定义

到目前为止大数据还没有明确统一的定义，不同组织机构对大数据有着不同描述。

1、麦肯锡(McKinsey)

大数据指其大小超出了典型数据库软件的采集、存储、管理和分析等能力的数据集。

2、维基百科(Wikipedia)

大数据是无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的大量而复杂的数据集。

3、美国国家标准技术研究院(NIST)

大数据是数量大、获取速度快或形态多样的数据。难以用传统关系型数据分析方法进行有效分析，或者需要大规模的水平扩展才能高效处理。

4、Gartner公司

大数据是体积大、快速和多样化的信息资产，需要高效率和创新型的信息技术加以处理，以提高发现洞察、做出决策和优化流程的能力。

2.2 大数据的4V特征

对于上面定义的分析可见大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低的四大特征。

2.2.1 Volume(容量)

Volume(容量)：随着信息化技术的高速发展，数据开始爆发性增长。大数据中的数据不再以几个GB或几个TB为单位来衡量，而是以PB(1千个T)、EB(1百万个T)或ZB(10亿个T)为计量单位。

容量主要是指非结构化数据的模型和增长速度。主要的特性如下：

占总数据量的80~90%。
比结构化数据增长10~50倍
传统数据仓库的10~50倍

2.2.2 Variety(多样化)

Variety(多样化)：多样性主要体现在数据来源多、数据种类多和关联性强这三个方面。

数据来源多：企业所面对的传统数据主要是交易数据，而互联网和物联网的发展，带来了诸如社交网站、传感器等多种来源的数据。而由于数据来源于不同的应用系统和不同的设备，决定了大数据形式的多样性。大体可以分为三类：一是结构化数据，如财务系统数据、信息管理系统数据、医疗系统数据等，其特点是数据间因果关系强；二是非结构化的数据，如视频、图片、音频等，其特点是数据间没有因果关系；三是半结构化数据，如HTML文档、邮件、网页等，其特点是数据间的因果关系弱。
数据种类多：以非结构化数据为主。传统的企业中，数据都是以表格的形式保存。而大数据中有70％-85％的数据是如图片、音频、视频、网络日志、链接信息等非结构化和半结构化的数据。
关联性强：频繁交互，如游客在旅游途中上传的照片和日志，就与游客的位置、行程等信息有很强的关联性。

多样化主要指大数据异构和多样性。主要的特性如下：

数据有多种不同形式
数据无模式或者模式不明显

2.2.3 Value(价值)

Value(价值)：尽管企业拥有大量数据，但是发挥价值的仅是其中非常小的部分。大数据背后潜藏的价值巨大。由于大数据中有价值的数据所占比例很小，而大数据真正的价值体现在从大量不相关的各种类型的数据中。挖掘出对未来趋势与模式预测分析有价值的数据，并通过机器学习方法、人工智能方法或数据挖掘方法深度分析，并运用于农业、金融、医疗等各个领域，以期创造更大的价值。

价值主要指大量不相关信息和价值密度低。主要的特性如下：

需要通过深度复杂分析才可以对未来趋势与模式进行预测

2.2.4 Velocity(高效)

Velocity(高效)：这是大数据区分于传统数据挖掘最显著的特征。大数据与海量数据的重要区别在两方面：一方面，大数据的数据规模更大；另一方面，大数据对处理数据的响应速度有更严格的要求。实时分析而非批量分析，数据输入、处理与丢弃立刻见效，几乎无延迟。数据的增长速度和处理速度是大数据高速性的重要体现。

高效主要指实现实时分析，实时呈现分析结果。主要的特性如下：

实时呈现数据分析结果

3.Hadoop生态系统简介

3.1 Hadoop的介绍

Hadoop是Apache软件基金会旗下的一个开源分布式计算平台。为用户提供了系统底层细节透明的分布式基础架构，用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力进行高速运算和存储。

Hadoop是基于Java语言开发的，具有很好的跨平台特性并且可以部署在廉价的计算机集群中。

Hadoop的框架最核心的设计就是：HDFS和MapReduce。HDFS为海量的数据提供了存储，则MapReduce为海量的数据提供了计算。

3.1.1 HDFS(Hadoop分布式文件系统)

HDFS是GFS克隆版。是Hadoop体系中数据存储管理的基础。它是一个高度容错的系统，能检测和应对硬件故障，用于在低成本的通用硬件上运行。

HDFS简化了文件的一致性模型，通过流式数据访问，提供高吞吐量应用程序数据访问功能，适合带有大型数据集的应用程序。

HDFS主要有以下几个部分组成：

1、Client：切分文件；访问HDFS；与NameNode交互，获取文件位置信息；与DataNode交互，读取和写入数据。

2、NameNode：Master节点，在hadoop1.X中只有一个，管理HDFS的名称空间和数据块映射信息，配置副本策略，处理客户端请求。对于大型的集群来讲，Hadoop1.x存在两个最大的缺陷：

对于大型的集群，namenode的内存成为瓶颈，namenode的扩展性的问题。
namenode的单点故障问题。

针对以上的两个缺陷，Hadoop2.x以后分别对这两个问题进行了解决。

提出了Federation namenode来解决，该方案主要是通过多个namenode来实现多个命名空间来实现namenode的横向扩张。从而减轻单个namenode内存问题。
hadoop2.X提出了实现两个namenode实现热备HA的方案来解决。其中一个是处于standby状态，一个处于active状态。

3、DataNode：Slave节点，存储实际的数据，汇报存储信息给NameNode。

4、Secondary NameNode：辅助NameNode，分担其工作量；定期合并fsimage和edits，推送给NameNode；紧急情况下，可辅助恢复NameNode，但Secondary NameNode并非NameNode的热备。

目前，在硬盘不坏的情况，我们可以通过secondarynamenode来实现namenode的恢复。

3.1.2 Mapreduce(分布式计算框架)

Hadoop MapReduce是google MapReduce克隆版。MapReduce是一种计算模型，用以进行大数据量的计算。其中Map对数据集上的独立元素进行指定的操作，生成键-值对形式中间结果。Reduce则对中间结果中相同"键"的所有"值"进行规约，以得到最终结果。MapReduce这样的功能划分，非常适合在大量计算机组成的分布式并行环境里进行数据处理。

MapReduce计算框架发展到现在有两个版本的MapReduce的API，针对MR1主要组件有以下几个部分组成：

JobTracker：Master节点，只有一个，主要任务是资源的分配和作业的调度及监督管理，管理所有作业，作业的监控、错误处理等；将任务分解成一系列任务，并分派给TaskTracker。
TaskTracker：Slave节点，运行Map Task和Reduce Task；并与Job Tracker交互，汇报任务状态。
Map Task：解析每条数据记录，传递给用户编写的map()，并执行，将输出结果写入本地磁盘。
Reducer Task：从Map Task的执行结果中，远程读取输入数据，对数据进行排序，将数据按照分组传递给用户编写的reduce函数执行。

在这个过程中，有一个shuffle过程，对于该过程是理解MapReduce计算框架是关键。该过程包含map函数输出结果到reduce函数输入这一个中间过程中所有的操作，称之为shuffle过程。在这个过程中，可以分为map端和reduce端。

3.1.2.1 Map端

1、输入数据进行分片之后，分片的大小跟原始的文件大小、文件块的大小有关。每一个分片对应的一个map任务。

2、map任务在执行的过程中，会将结果存放到内存当中，当内存占用达到一定的阈值(这个阈值是可以设置的)时，map会将中间的结果写入到本地磁盘上，形成临时文件这个过程叫做溢写。

3、map在溢写的过程中，会根据指定reduce任务个数分别写到对应的分区当中，这就是partition过程。每一个分区对应的是一个reduce任务。并且在写的过程中，进行相应的排序。在溢写的过程中还可以设置conbiner过程，该过程跟reduce产生的结果应该是一致的，因此该过程应用存在一定的限制，需要慎用。

4、每一个map端最后都只存在一个临时文件作为reduce的输入，因此会对中间溢写到磁盘的多个临时文件进行合并Merge操作。最后形成一个内部分区的一个临时文件。

3.1.2.2 Reduce端

1、首先要实现数据本地化，需要将远程节点上的map输出复制到本地。

2、Merge过程，这个合并过程主要是对不同的节点上的map输出结果进行合并。

3、不断的复制和合并之后，最终形成一个输入文件。Reduce将最终的计算结果存放在HDFS上。

针对MR2是新一代的MR的API。其主要是运行在Yarn的资源管理框架上。

3.2 Hadoop的优势

Hadoop被公认为行业大数据标准开源软件，在分布式环境下提供了海量数据的处理能力，几乎所有主流厂商都围绕Hadoop提供了相关开发工具、开源软件、商业化工具和技术服务。比如谷歌、雅虎、微软、华为、思科等等。

3.3 Hadoop的发展之路

2004年：最初的版本(现在称为HDFS和MapReduce)由Doug Cutting和Mike Cafarella开始实施，它的原型和灵感来自于Google的MapReduce和GFS是一套开源的分布式计算框架。

2004-2006：随着Doug Cutting加入雅虎，Hadoop项目从Nutch项目独立出来，成为Apach基金会的顶级项目。 2006-至今：Hadoop经过七年积累融入了R语言、Hive、Pig、Zookeeper、Cassandra、Chukwa、Sqoop等一系列数据库及工具。最终从一个科学项目发展成为一个成熟的主流商业应用。这期间一系列Hadoop商业化的软件公司出现了。2015年华为在开源技术的基础上发布Fusionlnsight企业级大数据平台，标志着华为正式进军大数据领域。

3.4 Hadoop的架构

Hadoop的架构主要分为系统管理层、数据源层、存储层、处理层和业务应用层。

数据源层：其中数据源可以是结构化、非结构化和半结构化的数据。
存储层：HDFS用作数据存储。
处理层：YARN平台用于数据处理，处理层包括MapReduce、Hive、HBase、Storm等各种组件。
业务应用层：业务应用层主要包括数据挖掘、统计和分析工具。
系统管理层：系统管理层包括配置部署、监控报警、性能容量、分布式协调、高可用、工作流引擎等模块

3.4 Hadoop的项目组件

组件	功能
HDFS	分布式文件系统
MapReduce	分布式并行编程模型
YARN	资源管理和调度器
Tez	运行在YARN之上的下一代Hadoop查询处理框架
Hive	Hadoop上的数据仓库
HBase	Hadoop上的非关系型分布式数据库
Pig	一个基于Hadoop的大规模数据分析平台，提供类似SQL的查询语言PigLatin
Sqoop	用于在Hadoop与传统数据库之间进行数据传递
Oozie	Hadoop上的工作流管理系统
Zookeeper	提供分布式协调一致性服务
Storm	流计算框架
Flume	一个高可用、高可靠、分布式的海量日志采集、聚合和传输的系统

3.5 Hadoop的特性

所有组件中最著名的是HDFS和MapReduce。而Hadoop作为一套能以可靠、高效、可伸缩的方式对大量数据进行分布式处理的软件框架具有以下几个方面特性：

高可靠性：因为Hadoop假设计算元素和存储会出现故障，因为它维护多个工作数据副本，在出现故障时可以对失败的节点重新分布处理。
高扩展性：在集群间分配任务数据，可方便的扩展数以千计的节点。
高效性：在MapReduce的思想下，Hadoop是并行工作的，以加快任务处理速度。
高容错：自动保存多份副本数据，并且能够自动将失败的任务重新分配。
低成本：Hadoop通过普通廉价的机器组成服务器集群来分发以及处理数据，以至于成本很低。
支持多种编程语言：支持R语言，Java等多种编程语言

4.大数据的价值和应用

4.1 大数据的影响

4.1.1 思维方式

大数据完全颠覆了传统的思维方式主要体现在以下三个方面：

全样和非抽样：大数据实现全量数据分析
效率和非精确：大数据实现高效实时的数据分析
相关和非因果：大数据分析偏向于分析数据或现象的关联性

4.1.2 社会发展

大数据决策逐渐成为一种新的决策方式，大数据应用有力促进了信息技术与各行业的深度融合，大数据开发大大推动了新技术和新应用的不断涌现。

4.1.3 就业市场

大数据的兴起使得数据科学家成为热门职业。

4.1.4 人才培养

大数据的兴起将在很大程度上改变我国高校信息技术相关专业的现有教学和科研体制。

4.2 大数据的应用

大数据的应用主要涉及的领域有：运营商领域、公共事业领域、金融领域、教育领域、零售领域、政府公共安全领域。

4.2.1 运营商领域

DOCOMO公司通过撬动大数据努力开发新的商业机会，提取公司海量客户信息，实现了8个产业的110亿美元的收入，比如：基于作物品种和天气的作物种植和收成预测，基于客户位置和行为信息的保险指南，为保险和汽车行业收集并分析驾驶记录，通过实时监控汽车传感器状态、汽车速度、风向、风速等的创新桥梁监控系统，为旅游资源开发汇聚用户的位置信息。

除此之外DOCOMO公司还根据麦当劳手机用户的消费特征和位置进行一对一营销。比如：日本的麦当劳的手机网站拥有超过2600万会员，每五个日本人口中就有一个是麦当劳移动网站的会员。

这些庞大的用户群形成了海量购买的用户数据，DOCOMO通过手机钱包、读写装置及后台的CRM系统，成功实现了对大量顾客购买记录的积累和分析处理，从而根据客户各自的消费特征，推出一对一营销的新型优惠卷。以上就是大数据在运营商领域的运用。

4.2.2 公共事业领域

谷歌流感趋势图，通过跟踪搜索词相关数据来判断全美地区的流感情况，以预防流感蔓延。以上就是大数据在公共事业领域的运用。

4.2.3 金融领域

在金融领域大数据的运用也非常广泛，下面是金融领域的几个案例。

伦敦德温特资本市场，公司首席执行官保罗霍延每天的工作之一，就是利用电脑程序分析全球3.4亿微博账户的留言，进而判断民众情绪，再以1-50分进行打分，根据打分结果，霍延再决定如何处理手中数以百万美元计的股票。霍延的判断很简单，如果所有人似乎都高兴那就买入，如果大家的焦虑情绪上升那就抛售。这一招收益效率显著，当年第一季度霍延公司获得了7%的收益率。
某银行通过小微贷和非小微贷客户的特征收集，建立小微贷倾向预测模型，其中收集小微贷客户信息10458个，非小微贷客户信息12000个，然后将900万客户数据执行分析，挖掘出14000个客户特征，获取高倾向小微贷客户列表。

4.2.4 教育领域

比如大数据分析被应用到美国的公共教育中，成为教学改革的重要力量，包括学习成绩、入学率、辍学率、开学率等等内容的统计分析应用。

4.2.5 零售领域

以前，某零售企业采取的是人工蹲点的方式进行采样分析，每个潜新址调研花费约几万元。现在，这家连锁零售企业通过大数据分析，根据用户选择的区域，以数据地图的形式展示该区域的人群特征和统计报表，为选址提供依据。零售企业通过获取所在区域的人流数据可以进行人流量和人群特征分析，人群来访频次和时段偏好分析。为综合性购物中心、百货、大卖场和专业的连锁客户提供决策辅助。

4.2.6 政府公共安全领域

政府公共安全和交通领域也有大数据的身影。比如：当自动预警与联动系统监控到某个区域，异常人员超过警戒值时，监管部门通过数据分析，及时定位问题，发送问题并确认，可能是因为全体性斗殴事件引发群众聚集围观，那么此时可以及时上报上级公安部门处理。大数据分析还可以实现城市人口流向监控分析。

4.2.7 小结

大数据再各行各业都发挥着不可忽视的重要作用，不仅仅是运营商领域、公共事业领域、金融领域、教育领域、零售领域、政府公共安全领域有着大数据身影。其他领域行业也离不开大数据的决策。

5.大数据的发展趋势

对于大数据而言，在2011年它还属于新兴技术，2014年已经跨越炒作巅峰，2015年大数据已经跨越裂谷走向成熟。如今，50%的企业已经投资和使用大数据，50%的企业正在规划如何利用大数据。我们看到在大数据领域的持续投资也促使了大数据逐渐步入成熟发展阶段。而在2015年新技术图中我们已经找不到大数据的身影了，代表着大数据已不再是新兴技术，而已成为了主流技术。在国家层面：各国已经将大数据作为国家战略提上了议程。2009年美国总统奥巴马签署了《透明和开放的政府》，2013年白宫推出了Data to Knowledge to Action计划。这是美国向数字治国、数字经济、数字城市、数字国防转型的重要举措。美国政府2016年5月发布《联邦大数据研究与开发战略计划》。围绕人类科学、数据共享、隐私安全等七个关键领域部署推进大数据建设。另外有八国集团在2015年联合发布了《G8数据开发宪章》提出要加快推动数据开发和利用。我国政府对于大数据发展也极其重视。2015年3月的两会上李克强总理明确表态，相关部门应该尽量公开非涉密的数据，以便利用这些数据更好服务社会，那么也为相关部门决策和监管服务。2017年5月28日，在2017年中国国际大数据产业博览会上，由大数据战略重点实验室研究编著，社会科学文献出版社出版的全国首部《大数据蓝皮书：中国大数据发展报告NO.1》正式发布。

从上面信息我们可以清晰的看到，全球各主要经济体都以将数据开发作为国家战略，促进未来经济发展。中国在顶层设计上已经开始布局大数据产业。华为的认知中的大数据有以下几点：

华为眼中的大数据是数据：包括内部数据、外部数据、多样化数据、海量数据。
华为眼中的大数据是技术：分布式技术、存储技术、分析技术、挖掘技术、实时技术。
华为眼中的大数据是思维：定量思维、跨界思维、相关思维、实验思维。

除此之外大数据还需要传统行业思维方式的转变：要把数据收集、分析作为业务流程的重要组成部分，数据驱动业务流程优化，实现智能化和自动化，并依托数据资产实现跨界扩展。华为大数据战略包括五个维度：文化维度、数据维度、技术维度、组织维度、应用维度。整个战略从数据平台到数据分析再到数据价值实现应用一体化。

6.华为云大数据基本介绍

6.1 大数据处理技术已经成为IT基础设施

主要产品类型

数据仓库:Greenplum、TeraData、Oracle、华为DWS
通用大数据平台:Cloudera AWS EMR、腾讯E-MapReduce，阿里E-MapReduce、华为MapReduce

6.2 华为云大数据整体架构

存算分离+鲲鹏，提供极致的算力和多元框架。

6.3 MRS

6.3.1 MRS服务

围绕数据开发流程，构筑一站式大数据平台。目标客户

自建大数据平台：可平滑搬迁自建CDH、HDP、Fusionlnsight大数据平台。
云服务迁移：可平滑搬迁AWS EMR、Azure HD Insight、阿里E-MapReduce、腾讯弹性MapReduce

6.3.2 MRS优势

100%兼容开源的基础上，打磨性价比+企业级能力。

6.3.3 华为云MRS对比自建场景

维度	子项	公有云	自建数据中心
成本	硬件成本	无需购买硬件	购买设备
成本	架构成本	基于Openstack开源架构，可扩展性好	可扩展性得不到保障
成本	人力成本	无需投入	自建运维团队或第三方运维
成本	资源使用	按需租用(或包周期)，弹性灵活	单独使用
运维	基础设施运维	专业团队统一运维，硬件扩容减容，坏件更换，物理网络维护等	自建运维团队或第三方运维
运维	业务系统运维	租户业务系统运维人员	业务系统运维人员
运维	服务平台版本	由公有云服务商统一更新，版本迭代快	自行制定升级计划，升级周期慢，迭代慢
安全	数据安全	具备完整的安全防护体系，数据放在云提供商的数据中心。云存储级数据安全冗余	自建全防护体系，投入大，局限性较大
安全	灾备与容灾	容易实现业务双活、多数据中心容灾，利用多region和多AZ	业务双活、容灾设备投入大，且不能两地三中心容灾
生态	第三方接入	整合上下游生态资源，提供100多种增值服务	封闭系统，不利于构建生态
生态	服务数量	IAAS+PAAS+SAAS，大数据、AI、安全等，服务众多	仅提供基础的计算、存储、网络IAAS功能
技术	功能	开放架构，及时享受云计算的最新技术和服务硬件预警，系统自动漂移，规避风险CPU/内存/硬盘均可在线扩容，简单快捷	封闭系统，升级、扩容复杂，监控预警、规避风险能力一般

6.3.4 适用MRS进行大数据处理的行业场景

一站式大数据平台服务适合：只要有大量数据产生，并且客户希望将产生的数据进行存储、分析和价值挖掘的行业，就会有大数据市场机会。

6.4 华为云大数据平台优势

6.4.1 零代码修改

零代码修改，助力xxxx实现车联智能服务，数据处理效率显著提升。

6.4.2 低成本、高性能

低成本、高性能，助力xxx从AWS EMR服务华为云。

6.4.3 DWS服务

DWS(Data Warehouse Service)是完全托管的BB级企业数据仓库服务，易用，开放，极致性能。助力企业高效经济高效地对海量数据进行在线分析，实现数据快速变现。已交付300+客户。

6.4.4 华为云数仓核心优势

华为云数仓核心优势主要体现在：性能、扩展性、可靠性、易用性、安全。

6.5 典型使用场景与行业

6.5.1 数据分析场景

数据分析场景，搬迁Oracle/Greenplum传统数仓

6.5.2 电商案例

数据仓库的替换。

6.5.3 物流案例

快速、低成本的构建企业的数据平台&BI系统，支撑决策。

二、华为大数据解决方案介绍

1.华为大数据解决方案介绍

华为大数据解决方案主要有以下四个方面：华为大数据解决方案简介、华为大数据平台架构、华为大数据商业咨询服务总体方案、大数据开发团队与社区贡献。

1.1 大数据分析和传统BI分析区别

传统BI分析：

数据源单一
人工分析，少量特征
简单模型，精确度低

大数据分析：

数据源多样，覆盖完整
机器学习，全量特征
分析精度高，效果好

1.2 大数据产业驱动

大数据产业驱动主要经历了以下四个阶段：信息业务支撑、信息管理企业、信息指导决策、信息促进创新。

1.2.1 信息业务支撑

信息业务支撑主要体系在两个方面：

技术层面：IT基础设施建设，简单应用，大数据咨询
业务层面：数据管理改造，离线分析，关注查询、报表

1.2.2 信息管理企业

信息管理企业主要体系在两个方面：

技术层面：建立大数据平台、跨域数据整合，构建实时分析应用、及时响应业务，开始数据挖掘进行、高级数据分析
业务层面：关注数据多样实时性，提供多种分析，实时分析，数据挖掘，数据安全

1.2.3 信息指导决策

信息指导决策主要体系在两个方面：

技术层面：开放数据服务与云结合，灵活开放应用隐私保护、决策数据化数据挖掘深度集成
业务层面：数据运营，数据即服务，分析即服务，开放数据等

1.2.4 信息促进创新

信息促进创新主要体系在两个方面：

技术层面：构建数字中枢，决策、运维智能化，信息交易共享
业务层面：认知计算，深度计算

1.3 大数据发展阶段

大数据已经从概念阶段过渡到应用阶段。大数据的服务也越来越多，但都离不开大数据平台。华为的大数据分析平台叫Fusioninsight，就是一个集大数据存储、处理和分析为一体的企业级统一化平台。Fusioninsight平台是在开源Hadoop大数据平台的基础上进行功能强化具有敏捷、智慧、可信等特点。

敏捷：主要体现在Fusioninsight是完全开放的架构，线上可以线性扩展，具有丰富的工具支持，开发运维效率高，具有强大的sql能力，业务移植更便捷。
智慧：Fusioninsight能实现全量建模，达到深刻洞察的效果，同时自研算法能高效精准地分析数据
可信：可信主要体现在全组件高可用、异地容灾、金融等保服务，华为大开放、共赢，是最可信赖的合作伙伴

2.华为大数据平台架构

2.1 华为大数据平台架构层次

下面这就是华为云大数据平台架构图，它包含了三层如下：

Hadoop：提供了大数据处理文件，是基于社区版开源软件Hadoop做的增强和优化，在这里我们称为Fusioninsight HD平台
DataFarm：提供支撑端到端的数据洞察，构建数据到信息、到知识、再到智慧的数据供应链，包含了数据集成服务Porter、数据挖掘服务Miner和数据服务框架Farmer
Manager：是一个分布式系统管理框架，管理员可以从单一登入点操控分布式集群，可以实现系统管理、数据安全管理和数据治理等

2.2 华为大数据平台的组件

在华为大数据平台下的组件功能有：

基础设施层：包含了标准服务器、存储、网络等。
分布式存储层：HDFS、HBase、LibrA等。
分布式计算框架：管理组件包括YARN，功能组件包括MapReduce、Spark、Storm，上层应用组件包括开源轻度增强、开源孵化增强、开源深度增强、自研数据分析工具。

2.3 华为大数据平台的组件特点

这些组件保证了华为大数据平台功能，具有如下特点：

百分比开源核心，支持混合负载，支持批量查询、交互查询、数据挖掘到流式查询等多种场景。
开放式存储格式，避免了锁定私有文件格式。此外，所有的组件格式都可以通过Manager组件提供的插件框架按需安装。

2.4 华为大数据平台Fusioninsight的增强特性

Fusioninsight的增强特性主要体现在：高可靠、高安全、高性能、以及解决方案匹配能力四个方面。

2.4.1 高可靠

大数据平台的高可靠性主要体现在：

Fusioninsight所有组件节点均实现高可用，所有组件无单点故障，其中HBase能实现1000公里以上的异地灾备。
表级集群备份、全量、增量日志备份。支持关键数据掉电保护。
硬盘支持热插拔。

2.4.2 高安全

2.4.2.1 认证安全

能实现对角色进行权限管理和审计 WEBUI服务还支持单点登录认证。对HBase的权限控制支持HBase库、表、列族和列等不同等级。Hive还支持合法用户之间的数据安全隔离，保障用户数据安全，支持合法用户之间的授权访问，允许用户数据交叉访问

2.4.2.2 数据安全

Fusioninsight支持对文件系统进行加密，Hive、HBase可以对表进行字段加密，集群内部用户信息禁止明文存储。加密算法插件化可进行扩充，也可自行开发，并且加解密过程业务完全无感知。

2.4.2.3 系统安全

高安全性还体现在对操作系统的安全加固，通过裁剪不必要的组件，工具自动测试扫描。在业务节点、管理节点和用户管理Portal等组件采取业务标准来实现操作系统加固，从而保证基础设施的安全性。

2.4.3 高性能

2.4.3.1 CTBase

针对数据密集型行业传统数据库，数据仓库的大量关联表设计，创新地实现了CTBase方案，能够将多个具有类似功能或者是存在关联的，业务表聚集到一个HBase大表中，从而提升了一些关键场景的多表关联查询的性能，另外CTBase还提供了二级索引Rowkey Schema的维护管理等关键能力。

2.4.3.2 集群管理

Fusioninsight Manager作为Fusioninsight运维维护中心。主要功能有以下几点：

支持系统双机和分布式并行处理，可在10分钟内完成集群安装。
支持全自动化在线运行维护、自定义Dashboard、自动化应用开发助手。
让企业可以轻松管理大数据系统，提供向导式升级、回退界面操作，但升级过程异常时支持自动安全回退，也支持观察期手工触发安全回退，可以在6分钟内完成Hadoop的升级
Fusioninsight HD提供了北向接口，能实现企业现有网管系统进行集成
支持syslog接口，接口消息可通过配置来适配现有系统，整个Hadoop集群采用统一的集中管理，未来北向接口可根据需求进行灵活扩展

2.4.4 解决方案配套

Fusioninsight HD围绕数据的采集、分析和消费，在典型的场景如数据中心运维、日志分析、历史数据查询、实时事件处理、客户特征画像等方面形成了一系列解决方案，并跟随客户业务的发展不断丰富。华为的Fusioninsight大数据平台源于开源又不止于开源，在大数据平台的高可靠、高安全、高性能、以及集群管理等方面已经迈出了一大步。

3.华为大数据商业咨询服务总体方案

华为云提供了集大数据平台、行业业务模型分析及咨询服务为一体的大数据商业咨询服务总体方案。

3.1 华为大数据商业咨询服务总体方案的四个阶段

这样的方案从拟定到落地执行需要经历Analysis分析、Design设计、Integration集成、Execution执行四个阶段。

3.1.1 Analysis分析阶段

其中Analysis分析阶段：主要包括市场分析、行业趋势分析、竞争分析和业界实践分析，然后根据分析结果来界定问题、构建问题树、确定根由进而梳理出需求和机会点。

3.1.2 Design设计阶段

其中Design设计阶段：大数据商业战略设计、大数据商业模型设计、商业场景全景规划、典型场景需求设计、场景分解和业务设计等，最终根据典型场景形成运营方案。

3.1.3 Integration集成阶段

其中Integration集成阶段：对支撑数据源的梳理、现有标签梳理，从而给出数据资源准备建议、大数据标签体系建议、以及典型场景的数字建模建议，最终形成商业和网络解决方案。

3.1.4 Execution执行阶段

其中Execution执行阶段：主要是对商业方案和技术方案落地，形成相关的管理体系和流程制度，并由IT部门去实施执行，最终形成华为大数据商业咨询服务的总体方案，它能帮助传统企业设计、构建和运营大数据系统，向大数据驱动的企业进行转型

3.2 华为大数据商业咨询服务总体方案的三个步骤

具体来说华为的解决方案分以下三个步骤：

制定长远的战略规划：明确当年目标，驱动大数据系统开展顶层设计
开展商业设计、技术设计、部署实施与数据运营这四大数据系统的支柱，让后分成更具体的8个关键行动
进行组织匹配、运作流程及人才训练，这是大数据构建与持续运营的基础，也是实施相关行动的前提条件

华为提供的不仅仅是一个大数据平台，更是一个能在企业下部署实施的大数据整体商业解决方案。

4.大数据开发团队与社区贡献

4.1 华为大数据开发团队优势

华为大数据开发团队有以下的优势：

把大数据应用视作生命线，比起开源Hadoop能更有效更便捷满足顾客需求。
有着强大掌握代码团队。

4.2 华为大数据开发团队核心能力

华为大数据开发团队核心能力包括以下几点：

定位内核级问题
独立完成支撑关键业务特性内核升级开发
引领社区完成面向未来的内核级特性开发
创新新社区顶级项目并得到社区生态系统认可

4.2 华为大数据开发团队分布情况

华为大数据专业研发团队也遍布全球，大数据是华为公司战略方向之一，未来将保持上千人规模的重点投入。

4.3 华为的社区贡献

华为对开源社区的贡献度也非常可观，华为对Hadoop，Spark等产品贡献度稳居第一阵营，而且对开源社区的整体共享呈逐年增加的趋势。华为2015年上半年对Hadoop社区贡献如图： 2017年4月Apache软件基金会宣布，华为贡献给Apache社区的开源项目CarBonData从Apache孵化器毕业，成为正式的Apache顶级项目。以上足以说明华为从大数据开源社区的参与者逐渐转变成社区的生态和引领着之一。

CarBonData是一种大数据高效存储格式解决方案，针对当前大数据领域，分析场景需求各异导致的存储冗余问题，CarBonData提供了一种新的融合数据存储方案，一份数据同时支持多种大数据场景，并与Apache社区的Hadoop，Spark等组件实现无缝集成。

三、华为大数据解决方案功能组件介绍

1.问题背景

我们知道Apache Hadoop是一个繁荣的开源生态系统，主要特点有Hadoop核心基本组件的开源代码量巨大，将近两百万行。HBase组件在快速的发展中，平均每个月一个发布版各组件。团队之间、团队成员是松耦合的，组件相关的特性也没有有效地整合。

2.华为大数据解决方案功能组件介绍

1.1 FusionInsight HD简介

1.1.1 FusionInsight HD诞生背景

针对上述问题，那么如此大量的代码以及频繁的产品更新，再加上组件之间的松耦合，势必会使得开源的Hadoop平台在管理、使用以及维护中消耗掉大量的人力和物力，这对于企业来讲并不是一个合格的产品。而华为的Fusionlnsight HD就是从开源到企业级蜕变后的产品。

1.1.2 FusionInsight HD具体做法

因为华为的Fusionlnsight HD大数据平台采纳了开源社区平台的精华，去除了开源平台的bug。具体的做法是谨慎地选择稳定基线版本，认真评估高版本补丁的影响范围，采用数万个测试用例，从而来确保企业版本的稳定性。

1.1.3 FusionInsight HD的优势

最终形成易用的、安全的、可靠的企业级大数据平台。其中易用用主要指易开发、易管理运维。安全指的是Fusionlnsight HD集成了统一的安全管理入口，RBAC授权机制以及数据加密安全等安全措施。可靠主要体现在系统无单点故障，并且实现地理容灾。可见华为的Fusionlnsight HD平台既源于开源又高于开源。

1.1.4 FusionInsight HD的解决方案架构

Fusionlnsight HD解决方案又包含了HDFS、Zookeeper、Hive、HBase等，这些组件通过Fusionlnsight manager来实现系统管理和安全管理，通过提供标准api的形式给上层应用提供服务。那么接下来我们一起来认识一下各个组件的功能。

1.1.4.1 HDFS

HDFS全称是Hadoop分布式文件系统，是基于谷歌的GFS论文设计开发的，是一个运行在通用硬件上的分布式文件系统。它除了具备其他分布式文件系统相同的特性外，还具有自己独有的特性，比如高容错型、高吞吐量以及大文件存储的特征。

HDFS适合大文件存储、流式数据访问，不适合做什么呢？不适合大量小文件、随机写入、低延迟读取的场景。

1.1.4.2 HBase

大数据数据库HBase是Fusionlnsight HD大数据平台中与HDFS协同工作，提供存储功能的组件。HBase的名字来源于Hadoop Database，即Hadoop的数据库。Hbase是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统。利用HBase技术，可以在廉价的PC server上搭建起大规模、结构化存储集群。 HBase利用Hadoop HDFS作为其文件的存储系统，利用Hadoop的MapReduce来处理HBase中的海量数据，利用zookeeper作为协同服务。而另一个在大数据中我们经常谈到的组件是Hadoop MapReduce，它是基于HDFS的MapReduce编程框架，是一个能够在大量的普通配置的计算机上处理和生成超大数据集的编程模型的具体实现。

1.1.4.3 Hadoop MapReduce

Hadoop MapReduce的框架确保程序以可靠的、容错的方式进行执行。采用Hadoop MapReduce架构可以使那些没有并行计算和分布式处理系统开发经验的程序员，有效地利用分布式系统的丰富资源。

1.1.4.4 Yarn

Yarn是hadoop 2.0中的资源管理系统，它是一个通用的资源管理模块，可为各类应用程序进行资源的管理和调度，Yarn是一个轻量级的弹性计算平台。除了MapReduce框架，还可以支持其他框架，比如Spark(迭代计算)、Storm(实时处理)，YARN可以对多种框架统一管理，共享集群资源，具有资源的利用率高、运维成本低、数据共享方便等等特点。

1.1.4.5 Spark

Spark是一款独立的、高速的、开源的分布式计算引擎，提供内存计算模式。它的核心是弹性分布式数据集。

Spark的核心是RDD：RDD(Resilient Distributed Datasets)经过实测，某些情况下其计算速度比Hadoop快十倍以上。

1.1.4.6 Zookeeper

Zookeeper是针对谷歌Chubby的开源实现，使用java编写，是一个分布式的协调服务，它包含了一个简单的原语集，分布式应用程序可以给基于它实现同步服务、配置维护和命名服务等，从而减轻分布式应用程序所承担的协调任务。

以上是关于Fusionlnsight平台中各个功能组件的介绍。

1.2 FusionInsight LibrA简介

1.2.1 FusionInsight LibrA是什么

Fusionlnsight LibrA是一个并行的数据库集群，是为新一代数据仓库所需的大规模数据和复杂查询功能而设计。该产品采用现代云计算的MPP理念和shared nothing架构，以及高性能、高可用性和动态扩展等特性。为超大规模数据管理提供了一个高性价比的通用平台。当然其核心竞争力也主要体现在这些方面。

1.2.2 FusionInsight LibrA的组件

而在Fusionlnsight LibrA的架构中，主要包含了这么一些组件：

Storage存储主要用于持久化存储，数据存储形式包括了行存储、列存储以及混合存储。
data node指的是执行查询任务分片的逻辑实体。
WLM工作负载管理器用于控制系统资源的分配。
GTM全局事务控制器，用于全局一致性事物的控制，多版本并发控制mvcc机制。
Coordinator连接节点用于接收用户连接，分解并调度任务分片，然后并行执行。
cm集群管理模块用于管理各功能单元和物理资源，om运维管理模块用于运维、配置管理、接口及工具。

通过架构图我们其实可以发现底层有storage和data node构成了基本的存储部分，通过网络通道提供各个节点的访问，而业务用户则通过coordinator的连接节点来访问数据存储，作为一个并行的数据库集群。

1.2.2 FusionInsight LibrA的优势特性

LibrA引擎的优势特性主要包含了以下几点：

标准的sql能力支持，它支持标准的sql92和sql2003规范。
集群管理加HA高可用。
workload的管理。
分布式执行引擎。
行列混合存储。
各种工具、安全保障和api接口。

1.3 FusionInsight Miner简介

1.3.1 FusionInsight Miner是什么

Fusionlnsight Miner称为是华为大数据的洞察平台。从这张图中我们可以看出，miner是处于Hadoop与应用之间的大数据的核心组件，对外提供数据挖掘的业务能力。

1.3.2 FusionInsight Miner的组件

面对大数剧带来的挑战。用户可以结合自己的领域知识以及Miner从各类原始数据中提取到活跃的、优质的数据，以便为后续构建模型和评估模型提供统一的向量化输入。而所谓的分析建模是指选取合适的模型算法，通过特征化的训练集作为输入进而训练生成业务模型，并对业务模型进行评价获得最优方案，同时还提供了模型的部署和调度管理。而数据的可视化主要是指将分析出来的数据做出清晰、完美的呈现，这个就是Fusionlnsight Miner组件。

1.3.3 FusionInsight Miner的洞察方法

数据洞察首先可以通过外部数据源来收集数据，比如企业数据、企业数据和互联网数据逻辑相关的数据。企业数据与第三方数据源、市场连接的数据等等。其次，基于行业的特征模型进行数据输入。特征工程是数据洞察的得力助手，通过获取和收集到得力的优质特征，并对特征进行管理，为后续构建和评估模型提供统一的向量化输入。最后是分析建模。

1.3.4 FusionInsight Miner的特点

Miner具有图形化的模型探索环境，并且具有coding Free的特点，也就是说开发过程封装成算子，无需编写任何代码。而Miner作用于数据的效果，包括低价值密度的数据重获新生；定时动态保持数据源更新，保持数据的新鲜性，特征可多次复用，提升数据分析团队的协作效率。

1.3.5 FusionInsight Miner的价值

Miner带给客户的价值主要有：

采用Miner挖掘并创造出新的业务价值。
实时业务预测，形成新商机。
降低行业用户的使用门槛，使大数据的探索与洞察变得更简单。

比如在金融领域，包括金融资产预测、理财产品、精准推荐、客户特征刻画等方面，miner都有其独特的应用价值。

1.4 FusionInsight Farmer简介

1.4.1 FusionInsight Farmer是什么

Fusionlnsight farmer是华为的数据服务平台，为企业业务应用提供了轻量级的应用运行环境。其特点主要包括了跨平台性、高可靠性、安全性、高性能、弹性伸缩、实时分布式处理能力、透明化访问hadoop以及统一、高效易用的运维管理能力等等。

1.4.2 FusionInsight Farmer的价值

Fusionlnsight farmer的客户价值主要体现在：

快速获取，保证企业业务的查询效率为秒级。
易于开发，基于高效、可共享的业务应用开发框架、开发业务逻辑，节省了百分之八十的程序量。
优化成本，采用分布式软件和通用的X86服务器来代替小型机，使用负载均衡SLB来代替硬件设备。
优质体验，通过可视化界面提供监控、告警、流程编排、业务拓扑等功能

1.4.3 FusionInsight Farmer的关键技术

在Fusionlnsight farmer中，关键技术有提供二次开发的sdk，支持socket、web、MQ等多种协议接入。支持基于标准工作流引擎的业务流程编排服务，提供负载均衡SLB，基于Dubbo框架实现去中心化的负载均衡能力，提供业务逻辑实力级的监控能力，自动识别系统短板，根据SLA规则实现业务逻辑的弹性伸缩。通过业务拓扑展示已部署业务逻辑的全景鸟瞰图，支持灰度发布升级时可新旧版本共存，控制并快速的解决新版本可能存在的缺陷，实现平滑升级，保证系统的稳定。

四、华为大数据应用分享

1.移动运营商应用分享

从电信的发展历程来看，运营商数字化转型是价值链从封闭、垄断到开放平等过程中的一次被迫重构。数字经济到来以后，运营商必须从商业架构、企业架构和网络架构进行彻底的重构，重新地定位自己，看清自己的核心能力，以开放、合作的心态与OTT共建价值链，才能在这次浪潮中获得成功。

1.1 数字化的转型模型的四个方向

华为对世界范围内运营商总结后提出了数字化的转型模型主要有：扩展客户群领域、客户资产价值挖掘、客户资产价值开发、运营系统和流程变革。

1.1.1 扩展客户群领域

在扩展客户群领域方面：从个人、家庭向企业与物联网延伸。

1.1.2 客户资产价值挖掘

在客户资产价值挖掘方面：从传统的电信服务到客户价值驱动的多样化数字业务，提升了业务价值。

1.1.3 客户资产价值开放

在客户资产价值开放方面：开放构建生态环境，通过开放、共享来获取客户资产增值收益。

1.1.4 运营系统和流程变革

在运营系统和流程变革方面：打造以客户体验为中心的数字化运营系统和企业架构，从而来提升运营效率。

1.2 数字化的转型模型的四个层次

华为大数据解决方案是基于对运营商、用户和网络的理解，综合运营商各域数据进行大数据建模，从而实现用户保留、业务提升、网络效率提升和对外价值变现的最终商业成功。而实际上华为为运营商行业提供的解决方案主要分为四个层次：在level 1基础设施层适配BSS和OSS数据，用户行为数据以及外部数据等电信领域数据。在level 2数据处理层，采用统一的大数据平台，结合level 3服务层，共同组成了FusionInsight平台，向下融合跨域数据，向上支持不同的应用；最后的level 4应用层，主要是电信领域商业驱动的应用。包括了智能运营、营销、智能关怀、KPI、NPM、客户体验管理、MIS、Dass等一些应用。

1.3 数字化的转型模型的案例

接下来我们来看一个具体的案例，湖南移动原经分架构不能满足业务发展要求，计划采用大数据技术建设新的经分系统。而图中显示的就是原经分系统的架构。我们可以看出原有的经分系统有着非常明显的局限性，主要体现在以下四个方面：

原架构不能匹配业务发展，移动业务已经进入"大数据、微营销时代"，而现有的系统还是以传统架构来建设的，因此难以支撑。
需求响应效率低，数据应用的耦合度高，而模型设计灵活性不足。因此从需求提出到最终实现流程长、响应慢。
缺少融合业务的支撑能力。由于缺少对O域、M域数据的整合与理解，而分析支撑又局限于B域范围，因此，难以支撑移动互联网流量经营需要的跨域、端到端的分析需求。
数据管理和开放能力不足。除经分系统以外，按照应用模式独立建设的大量应用子系统缺少统一的管理和开放能力，造成创新应用引入困难。

而华为的大数据解决方案凭借技术评比第一、综合评比第一的优势，获得了客户的信赖，从而成功地为湖南移动构建了新的经分系统。华为大数据解决方案主要采用了Hadoop结合LibrA。混搭架构，实现对B\M\O域数据的全面接入，融合处理并进行统一的建模。同时引入爬虫、流计算等技术，实现对互联网数据的处理和实时的业务支撑。

而通过本项目的建设，帮助湖南移动实现了如下六个方面的改进和提升：

提升平台能力
提升数据资产的管理能力
提升日常的工作效率
提升业务能力
提升开放能力
降低后续的建设成本

那么接下来我们将针对其中的三个方面做一个具体的分析。

首先是平台能力的提升，非结构化数据的处理能力方面，采用爬虫技术实现对互联网非结构化数据的获取和处理，利用Hadoop的分布式扩展优势。网页爬取任务均衡的分摊到各个节点上，并启动多线程执行，极大地提升了网页的爬取效率。

云化ETL提升海量数据的处理能力方面，主要体现在高性能和高扩展性上。比如相同处理能力的硬件平台，大部分场景的性能提升了百分之五十以上，整个集群的处理能力可以动态伸缩，程序任务可以完全的自定义扩展，灵活性强。

分钟级实时数据处理分析能力方面，流数据处理实现持续的数据载入和数据处理，缩短了数据延迟，支撑实时营销。事件处理中心，提高了事件配置、事件、处理、事件的服务能力。通过Hadoop集群和LibrA数据引擎，提升分布式计算和存储能力。

从整体上来看，与原系统相比，新的经分系统实现了对数据的分布式计算、存储，提升了对非结构化数据的支持，增强了对海量数据的处理能力，实现了实时的数据分析处理，接入数据规模每日可达7个T，数据的存储量超过3个PB；平台支持2000个经分用户的日常访问需求，以及20000个一线用户的营销需求。其次是日常分析效率的提升，运营商数据资产全视图提供的自助分析服务，实现市场部门用户的提数时长从周到小时的转变。例如88元4G套餐语音资源使用率的报表原本需要两周时间获取，而在新的平台下可以实现自助报表1小时即席查询2小时的时间指标。业务能力的提升支撑大数据、超细分、微营销、精服务的落地。比如，建立客户生命周期的模型、客户生物钟模型等数据模型，以用户标签为基础对客户进行细分，建立客户第一时刻、异动时刻、重要时刻、免打扰时刻等标签，分别进行精准的营销，比如以客户群方式营销、以一刻一时一策略的方式进行营销等。

2.金融机构应用分享

2.1 数字化的转型模型的四个方向

传统金融机构的特征是通过标准化和产业化提供服务，关注过程和步骤，被动接收信息，并且信息的来源单一，通过客户经理联系客户，固定渠道单一交互，可以满足世纪之初的客户需求。那么随着数字化信息时代的发展，客户需求逐步的改变，比如客户需要随时随地的获取服务、寻找有意义的体验以及互动参与内容、产品和体验的创建等等。那么金融机构就需要朝着移动化、个性化、社交化、实时化的方向进行发展。为了朝着移动化、个性化、社交化和实施化的方向发展，金融数据架构就要有所改变，由原本单一的核心交易平台转变为两个数据平台，即在原有数据平台的基础上加入大数据平台，通过大数据平台提供具有实时在线性、业务持续性和跨多元数据的业务服务，比如统一的历史明细、在线征信等。

2.2 数字化的转型模型中金融行业的特殊要求

金融行业对大数据平台的要求主要体现在：

企业级的质量标准要求：比如金融等保、可靠、易用、支持与现有系统的对接。
开放性要求：多分析引擎、统一管理，满足多样化的数据分析场景。
挖掘能力要求：支持机器学习、深度学习等新的数据挖掘能力，实现更精准的洞察。

因此全新的金融数据平台架构如图所示，通过构建统一的离线和实时的计算平台，融合跨域数据，从而来支撑不同的业务应用。那么华为金融行业大数据业务主要包括了客户管理、营销管理、风险管理、运营管理以及信息创新五大领域，涵盖客户三百六十度画像、电话银行、信用卡反欺诈、产品定位、历史数据管理等28个业务模块。

银行业务竞争越来越激烈，急需以金融数据分析和挖掘为基础进行产品预测、创新和风险评估，来提升自身的竞争力。

而金融数据量和种类的不断增加，传统数据仓库也只适合结构化数据处理，同时扩展性差、扩容成本高，已经无法满足大数据时代的要求。招商银行选择了华为的大数据解决方案，建立了高可靠、高安全、易管理、易开发的企业级大数据平台。

华为大数据解决方案是第一家支持金融等保，第一家支持1000公里以上异地融灾的海量数据分析和挖掘的平台，能实现与企业应用的无缝衔接。华为拥有强大的内核及开发工程团队和咨询、定制化的服务能力。

而华为的大数据解决方案平台也为招商银行提供了统一的全量的数据分析和挖掘功能，提供了丰富的创新业务，比如在线明细、精准营销、实时征信等。除此之外，在小微贷获客预测方面，比传统方式提升了40倍的转化率，金融资产的预测误差率降低了一倍。而信用卡征信也有原来的15天缩减至2-5秒，同时支持线性扩容，并且扩容成本低。

2.3 数字化的转型模型的案例

那么接下来我们来看一下具体的应用场景，比如在线的历史明细查询方面，华为FusionInsight数据服务结合FusionInsight HD基础数据平台的解决方案，使客户只需要专注历史明细查询业务的编写即可。

数据服务平台支持多业务系统并发访问，从而实现实时的历史明细的查询能力。并且数据服务平台也支持socket和web的业务请求接入和分发，与招行的业务系统实现无缝衔接。

此外，创新的CTBase方案独有的表聚簇和多级索引，支持HBase多表的关联查询能力，而HBase同时也支持sql、java api的编程接口，来适应客户的编程习惯。

在客户行为分析方面：华为的FusionInsight Miner数据洞察结合FusionInsight HD基础数据平台的解决方案，使客户只需关注客户行为分析业务的编写。

而FusionInsight Miner基于大数据进行全量的建模分析，可以挖掘出14000维客户特征，实现多维客户行为的并发分析。同时FusionInsight Miner采用机器自动学习机制，大大的提高了分析的准确度，最终客户行为分析结果存储在HBase中，供业务的查询使用。

再比如在实时征信方面的应用，华为的FusionInsight farmer数据消费平台，结合FusionInsight HD基础数据平台的解决方案，也使客户只需关注实时征信业务逻辑的编写即可。

其中FusionInsight farmer支持多业务系统的并发访问，实现实时征信访问能力。FusionInsight farmer同时也支持tcp/http的请求接入和分发，提供负载均衡功能，实现于招行业务系统的无缝衔接。

而前面我们谈到创新的CTBase方案，其独有的表聚簇和多级索引，支持HBase多表关联查询的能力，并且HBase也支持java api的编程接口，从而来适应客户的编程习惯。

3.政府机构应用分享

现在的政府机构依然以传统的架构为主，政府机构面临着政、企与居民的双向沟通、移动政府的安全与访问控制等多方面的需求。与金融机构类似，传统架构越来越不能满足政府机构服务人民群众的需求，这也迫使政府机构需要走上大数据和云计算的转型之路。其实我们可以尝试想象，未来经过大数据和云计算转型之后的政府与民众能实现360度的全方位沟通，可以基于人工智能提供个性化的服务、预测分析未知风险等。实现更优、更快的转变。其中公安政府的大数据业务模型主要包括情报分析、案件侦破、交警业务、警员办公四大领域，而大数据的价值点包括了同行分析、案件统计、套牌车分析、电子卷宗检索等29个方面。华为大数据作为一套经过多方检验与实践的成熟的解决方案，能够完美地覆盖公安政府大数据业务。

总结

本文主要介绍的内容有：大数据是什么、华为大数据解决方案介绍、华为大数据解决方案功能组件介绍、华为大数据应用分享。

大数据作用主要由以下三点：

对大数据的处理分析正成为新一代信息技术融合应用的结点。移动互联网、物联网、社交网络、数字家庭、电子商务等是新一代信息技术的应用形态，这些应用不断产生大数据。云计算为这些海量、多样化的大数据提供存储和运算平台。通过对不同来源数据的管理、处理、分析与优化，将结果反馈到上述应用中，将创造出巨大的经济和社会价值。
大数据是信息产业持续高速增长的新引擎。面向大数据市场的新技术、新产品、新服务、新业态会不断涌现。在硬件与集成设备领域，大数据将对芯片、存储产业产生重要影响，还将催生一体化数据存储处理服务器、内存计算等市场。在软件与服务领域，大数据将引发数据快速处理分析、数据挖掘技术和软件产品的发展。
大数据利用将成为提高核心竞争力的关键因素。各行各业的决策正在从"业务驱动" 转变"数据驱动"。

综上所述，社会发展离开不了大数据。人们的出行越来越离不开大数据的协助，运用电子地图，初来乍到的游客可以在生疏的城市自由行走；繁忙一天的上班族可以查询最快回家的交通方法；出租车司机经过语音导航，知晓前方路程状况，防止堵车或超速违章。这些都是大数据在生活中的体现。

【愚公系列】华为云数据库之大数据入门与应用

前言