数据湖是什么？数据湖的关键技术（二）

数据探索

数据的异构性特征导致了从数据湖中获取数据价值存在难度。主要问题体现在多种数据模型的查询、模式不确定的关键字搜索、数据访问的有效性以及个性化数据的探索等方面。数据探索技术的先进程度不仅影响着用户的数据使用体验，而且直接关系到数据分析的质量。

在数据湖环境中，针对表格数据的探索，主要方法可以归结为查询驱动的数据发现方法，这种方法的核心是相似性查询。与表格数据关联性查询不同的是，异构数据查询需要处理各种不同类型的数据源，并提供一种统一的查询方式。Constance架构在数据探索中采用了查询重写方法，但目前只支持半结构化数据的查询。查询重写引擎基于声明式映射的数据集成逻辑方法与可扩展的大数据查询处理系统(Apache Spark)相结合，不仅有效地执行已重写的查询，而且将查询结果协调到一个集成数据集中。

在数据探索中，关键字搜索是一种普遍采用的方法。然而，传统关键字搜索仅限于特定数据模型，无法适应数据湖环境。因此有人提出了在数据湖异构数据中搜索关键字的统一框架，将查询语义内容以树型方式表述，解决了模式不确定数据的关键字搜索问题。关键字搜索和导航技术之间的结合提升了用户探索的效率，可以把数据集搜索和层次结构导航集成在一起，即使不知道导航起点的情况下也可以搜索到相关数据集。

语义Web技术通过知识表示模型和基于本体的映射方法，在数据探索互操作性和有效性方面起到了非常重要的作用。Garda提出了一种Web语义方法，适合于数据探索服务和个性化探索体验，该方法中利用语义信息(也称为语义元数据)调解数据探索过程，建模探索过程中用户所需要的知识。

将Web语义与数据湖结合起来产生了语义数据湖的概念，其核心是为数据集配备词汇表、本体、知识图映射，用作底层数据的语义访问层。Squerall是一个建立在本体数据访问(OBDA)原则之上的语义数据湖实现框架，可以使用一种独特的查询语言(SPARQL)，查询不同的异构源。Ontario是针对语义数据湖环境的异构数据源之间高效互操作的查询引擎，数据源选择、复杂查询分解、查询规划是该引擎特有的处理方法。因此提出了一种基于知识方法的语义数据湖，能够支持数据源的高效集成，并将其对齐到表示感兴趣的指标、数学公式和分析维度的知识图。

通常领域专家了解数据湖中的相关领域数据，但是定义探索指标的是数据分析师。为了使领域专家以个性化方式探索数据，在语义数据湖上建立适当的概念化查询指标来实现个性化数据探索。该框架分三层实现，分别是语义建模层、基于查询指标的语义表示探索层、个性化探索图选择层。Bianchini在数据探索中引入用户偏好和语境偏好函数，增强了个性化数据探索能力。

目前数据湖中数据探索研究主要集中在查询技术的改进和完善上。针对表格数据集的查询驱动技术以及针对异构数据集的查询重写和搜索技术是应对数据探索需求的关键技术。同时，Web语义、本体论、知识图谱等底层技术的运用有效改进了数据探索效果。虽然语义数据湖概念还处于早期阶段，但它已经得到了该研究方向的共鸣。满足最终数据使用者和分析者的个性化需求是研究者非常关心的问题，但该方面的研究还停留在探索需求指标层面，需要进一步探究。

数据治理

数据湖治理通过策略和标准等管理手段实施异构数据源的转换和分析，以确保高效、安全的使用数据，并获取可靠的分析结果。

数据追溯(dataprovenance)

数据湖中的数据项在加工处理过程中可能处于不同的阶段，这导致数据的来源关系变得复杂，需要一种追溯机制来进行管理和记录。通过这个过程，可以管理数据来源和数据血缘关系。这种来源信息告诉人们如何获取数据集，并帮助人们正确地访问数据集。

数据湖通常接收各种不同来源的异构数据，而管理这些不同来源的数据轨迹是一个难题。在数据湖环境中可以追溯数据源的参考架构，该架构能够捕获异构数据集的来源事件信息。然而，大数据追溯面临着数据量大、开销大、难以存储分布式来源数据、忽视数据源头应用等挑战。为了弥补这些问题，提出了并行流处理算法，该算法使用有状态的单次并行流处理，减少来自异构数据集的信息流，同时保留了向后和向前的信息流。

数据安全

大数据的挑战前所未有，需要解决的问题非常复杂，目前的一些技术和方法还尚未成熟，仍然存在进一步发展的空间。到目前为止，数据湖环境中对安全技术相关的讨论很稀少，只有一些架构讨论了数据访问控制方面的内容。分区存储是数据湖中最普遍的访问控制实现形式，在数据湖分区架构中划分出能进行安全管理和监控的分区，允许用户控制数据湖体系结构及其资源。很多研究者都认为区块链技术是解决数据湖安全问题的有效方法。为了在数据湖中安全的跨域共享，谢裕清等人优化了区块链智能合约模块，不仅实现了数据湖中原始数据的安全存储，也降低了系统吞吐量。

以上是数据湖的关键技术的全部内容，部分内容参考网络，如有侵权请联系删除。