软考系统架构设计师系列知识点之大数据（2）

所属章节：

第11章. 未来信息综合技术

第6节. 云计算和大数据技术概述

大数据和云计算已成为IT领域的两种主流技术。"数据是重要资产"这一概念已成为大家的共识，众多公司争相分析、挖掘大数据背后的重要财富。同时学术界、产业界和政府都对云计算产生了浓厚的兴趣：全球范围内讨论云计算技术学术活动如火如荼；谷歌、亚马逊、IBM、微软等IT巨头大力推动云计算的宣传和产品的普及。各国政府斥巨资纷纷打造大规模数据中心与计算中心。

2. 大数据的研究内容

2012年冬季，来自IBM、微软、谷歌、HP、MIT、斯坦福、加州大学伯克利分校、UIUC等产业界和学术界的数据库领域专家通过在线的方式共同发布了一个关于大数据的白皮书。改白皮书首先指出大数据面临着5个主要问题 ，分别是：异构性（Heterogeneity） 、规模（Scale） 、时间性（Timeliness） 、复杂性（Complexity） 和隐私性（Privacy） 。在这一背景下，大数据的研究工作将面临5个方面的挑战：

**挑战一：数据获取问题。**我们需要决策哪些数据需要保持或丢弃等问题，目前这些决策还只能采用特设方法给出。
**挑战二：数据结构问题。**如何将没有语义的内容转换为结构化的格式，并进行后续处理。
挑战三：数据集成问题。只有将数据之间进行关联，才能充分发挥数据的作用，因此数据集成也是一项挑战。
挑战四：数据分析、组织、抽取和建模是大数据本质的功能性挑战。数据分析是许多大数据应用的瓶颈，目前底层算法缺乏伸缩性、对待的分析数据的复杂性估计不够，等等。
挑战五：如何呈现数据分析的结果，并与非技术的领域专家进行交互。

为了应对上述挑战，白皮书建议采用现有成熟技术解决大数据带来的挑战，并给出了大数据的分析步骤，大致分为数据获取/记录 、信息抽取/清洗/注记 、数据集成/聚集/表现 、数据分析/建模 和数据解释5个主要阶段。在每个阶段都面临着各自的研究问题。

（1）数据获取和记录

研究数据压缩 中的科学问题，能够智能地处理原始数据，在不丢失信息的情况下，将海量数据压缩到人可以理解的程度；研究**"在线"数据分析** 技术，能够处理实时流数据；研究元数据自动获取 技术和相关系统；研究数据来源技术，追踪数据的产生和处理过程。

（2）信息抽取和清洗

一般来说，收集到的信息需要一个信息抽取过程，才能进行数据分析。抽取的对象可能包含图像、视频等具有复杂结构的数据，而且该过程通常是与应用高度相关的。

一般认为，大数据通常会反映事实情况，实际上大数据中广泛存在着虚假数据。关于数据清洗的现有工作通常假设数据是有效的、良好组织的，或对其错误模型具有良好的先验知识，这些假设在大数据领域将不再正确。

（3）数据集成、聚集和表示

由于大量异构数据的存在，大数据处理不能仅仅是对数据进行记录、然后就将其放入存储中。如果仅仅是将一堆数据放入存储中，那么其他人就可能无法查找、修改数据，更不能使用数据了。即使各个数据原都存在元数据，将异构数据整合在一起仍然是一项巨大的挑战。

对大规模数据进行有效分析需要以自动化的方式对数据进行定位、识别、理解和引用。为了实现该目标，需要研究数据结构和语义的统一描述方式与智能理解技术，实现机器自动处理。从这一角度看，对数据结构与数据库的设计也显得尤为重要。

（4）查询处理、数据建模和分析

大数据中的噪声很多，具有动态性、异构性、关联性、不可信性等多种特征。尽管如此，即使是充满噪声的大数据也可能比小样本数据更有价值，因为通过频繁模式和相关性分析得到的一般统计数据通常强于具有波动性的个体数据，往往透露更可靠的隐藏模式和知识。互联的大数据可形成大型异构的信息网络，可以披露固有的社区，发现隐藏的关系和模式。此外，信息网络可以通过信息冗余以弥补缺失的数据、交叉验证冲突的情况、验证可信赖的关系。

数据挖掘需要完整的、经过清洗的、可信的、可被高效访问的数据，以及声明性的查询（例如SQL）和挖掘接口，还需要可扩展的挖掘算法及大数据计算环境。在TB级别上的可伸缩复杂交互查询技术是目前数据处理的一个重要的开放性研究问题。当前的大数据分析的一个问题是缺乏数据库系统之间的协作，需要研究并实现将声明性查询语言与数据挖掘、数据统计包有机整合在一起的数据分析系统。

（5）解释

仅仅有能力分析大数据本身、而无法让用户理解分析结果，这样的效果价值不大。最终，一个决策者需要对数据分析结果进行解释。对数据的解释不能凭空出现，通常包括检查所有提出的假设并对分析过程进行追踪和折回分析。此外，分析过程中可能引入许多可能的误差来源：计算机系统可能有缺陷、模型总有其适用范围和假设、分析结果可能基于错误的数据等。在这种情况下，这一过程特别具有挑战性，是一个重要的研究内容。

在大数据分析的情景下，仅仅向用户提供结果是不够的。相反，系统应该支持用户不断提供附加资料，解释这种结果是如何产生的。这种附加资料（结果）称之为数据的出处（data provenance）。通过研究如何最好地捕获、存储盒查询数据出处，同时配合相关技术捕获足够的元数据，就可以创建一个基础设施，为用户提供解释分析结果，重复分析不同假设、参数和数据集的能力。

具有丰富可视化能力的系统是为用户展示查询结果、进而帮助用户理解特定领域问题的重要手段。早期的商业智能系统主要基于表格形式的展示数据，大数据时代下的数据分析师需要采用强大的可视化技术对结果进行包装和展示，辅助用户理解系统，并支持用户进行协作。

此外，通过简单的单击操作，用户应该能够向下钻取到每一块数据，看到和了解数据的出处。针对上述需求，需要研究新的交互方式，支持用户采用"玩"的方式对数据分析过程进行小的调整，并立即对增量化的结果进行查看。通过这种方法，用户能够对分析结果有有个直观的理解，从而帮助用户更好地理解大数据背后的价值。

软考 系统架构设计师系列知识点之大数据（2）

2. 大数据的研究内容

软考系统架构设计师系列知识点之大数据（2）