开源框架Apache NiFi调研

NiFi背景介绍
一、什么是NiFi
- [1.1 Apache NiFi特点：流管理、易用性、安全性、可扩展的体系结构和灵活的伸缩模型。](#1.1 Apache NiFi特点：流管理、易用性、安全性、可扩展的体系结构和灵活的伸缩模型。)
- [1.2 Apache NiFi特性](#1.2 Apache NiFi特性)
- [1.2 Apache NiFi核心概念](#1.2 Apache NiFi核心概念)
- 1.3架构
二、NiFi的诞生，要致力于解决的问题有哪些？
三、为什么使用NiFi?
- 常见处理器

NiFi背景介绍

2006年NiFi由美国国家安全局（NSA）的Joe Witt创建。2015年7月20日，Apache 基金会宣布Apache NiFi顺利孵化成为Apache的顶级项目之一。NiFi初始的项目名称是Niagarafiles，当NiFi项目开源之后，一些早先在NSA的开发者们创立了初创公司Onyara，Onyara随之继续NiFi项目的开发并提供相关的支持。Hortonworks公司收购了Onyara并将其开发者整合到自己的团队中，形成HDF（Hortonworks Data Flow）平台。2018年Cloudera与Hortonworks合并后，新的CDH整合HDF，改名为Cloudera Data Flow(CDF)。Cloudera将NiFi作为其新产品Cloudera Flow Management和Cloudera Edge Management的核心组件推出，可以方便地使用Cloudera Manager进行Parcel安装和集成，而Apache NiFi就是CFM的核心组件。

一、什么是NiFi

Apache NiFi 是一个易于使用 、功能强大 而且可靠的数据处理和分发系统 ，在大数据生态中的定位是成为一个统一的，与数据源无关的大数据集成平台 。Apache NiFi是为数据流设计，它支持高度可配置的指示图，来指示数据路由、转换和系统中流转关系，支持从多种数据源动态拉取数据（Data Lake、DB（Oracle、MySQL）、API等） 。简单地说，NiFi是为自动化系统之间的数据流而生。这里的数据流表示系统之间的自动化和受管理的信息流。 基于WEB图形界面，通过拖拽、连接、配置完成基于流程的编程，实现数据采集、处理等功能。未来NiFi有可能替换Flume、Sqoop等大数据导数据的工具。

NiFi官网地址：Apache NiFi：https://nifi.apache.org/
文档：https://nifi.apache.org/docs.html
Nifi GitHub源码地址 https://github.com/apache/nifi

NiFi客户处理各种各样的数据源和数据格式。可以由一个数据源中获取数据，对数据进行计算、转化，把数据推送到其他的数据源进行存储。

1.1 Apache NiFi特点：流管理、易用性、安全性、可扩展的体系结构和灵活的伸缩模型。

流量管理：
- 保证交付：NiFi的核心理念是，即使规模非常大，也必须保证交付。这是通过有效使用专门构建的持久预写日志和内容存储库来实现的。它们一起被设计成这样一种方式，允许非常高的事务率、有效的负载分散、写时复制，并发挥传统磁盘读/写的优势。
- 带背压和压力释放的数据缓冲：NiFi支持对所有排队的数据进行缓冲，并在这些队列达到指定的限制时提供回压，或者在数据达到指定的年龄(其值已经消亡)时使其老化。
- 优先队列：NiFi允许为如何从队列中检索数据设置一个或多个优先级方案。默认情况下是最早的先提取，但有时应该先提取最新的数据，先提取最大的数据，或者其他一些自定义方案。
- 特定于流的QoS(延迟v吞吐量，损失容忍度等)：在数据流中，有些点的数据是绝对关键的，并且是不能容忍损失的，需要实时处理和交付，才能具有任何价值，NiFi支持这些关注点的细粒度流特定配置。
易用性别： 多个处理器(Processors)被连接器（Connector）的箭头链接在一起，创建了数据流程。NiFi提供fbp（基于流编程）的体验。
- 可视化管理：数据流可能变得相当复杂。能够可视化这些流程并以可视化的方式表达它们可以极大地帮助降低复杂性，并确定需要简化的区域。NiFi不仅可以可视化地建立数据流，而且可以实时地实现。对数据流进行更改立即生效。
- 流模板：数据流往往是高度面向模式的，模板允许主题专家构建和发布他们的流设计，并让其他人从中受益和协作。
- 数据源：当对象流经系统时，NiFi自动记录、索引并提供来源数据，即使是在扇入、扇出、转换等过程中也是如此。这些信息对于支持遵从性、故障排除、优化和其他场景非常重要。
- 恢复/记录细粒度历史的滚动缓冲区：NiFi的内容存储库被设计成历史的滚动缓冲区。数据只有在内容存储库老化或需要空间时才会被删除。这与数据来源功能相结合，形成了一个非常有用的基础，可以在对象生命周期(甚至可以跨越几代)的特定点上实现点击内容、下载内容和重播。
安全性：
- 系统到系统：数据流需要安全保障，数据流中的每个点上的NiFi通过使用带有加密协议(如2-way SSL)提供安全交换。此外，NiFi使流能够加密和解密内容，并在发送方/接收方等式的任何一方使用共享密钥或其他机制。
- 系统用户：NiFi支持双向SSL身份验证，并提供可插拔授权，以便在特定级别(只读、数据流管理器、管理)正确控制用户的访问。如果用户将敏感属性(如密码)输入到流中，它将立即在服务器端加密，并且即使以加密形式也不会再次在客户端公开。
- 多租户授权：给定数据流的权限级别应用于每个组件，允许admin用户拥有细粒度级别的访问控制。这意味着每个NiFi集群都能够处理一个或多个组织的需求。与孤立的拓扑相比，多租户授权支持数据流管理的自助服务模型，允许每个团队或组织管理流，同时充分了解他们无法访问的其余流。
可扩展体系结构：
- 扩展：NiFi的核心是为扩展而构建的，因此它是一个平台，数据流进程可以在其上以可预测和可重复的方式执行和交互。扩展点包括:处理器、控制器服务、报告任务、优先级和客户用户界面。
- 类加载器隔离：对于任何基于组件的系统，依赖关系问题都可能很快发生。NiFi通过提供自定义类加载器模型来解决这个问题，确保每个扩展包只暴露给非常有限的一组依赖项。
- 点到点通信协议：NiFi实例之间的首选通信协议是NiFi Site-to-Site (S2S)协议。S2S可以轻松地将数据从一个NiFi实例传输到另一个NiFi实例，轻松、高效、安全。NiFi客户端库可以很容易地构建并捆绑到其他应用程序或设备中，通过S2S与NiFi通信。在S2S中，基于套接字的协议和HTTP(S)协议都被支持作为底层传输协议，这使得在S2S通信中嵌入代理服务器成为可能。
灵活缩放模型：
- 水平扩展(聚类)：NiFi被设计为通过使用如上所述的群集多个节点来向外扩展。如果将单个节点配置为每秒处理数百MB，则可以将普通集群配置为每秒处理GB。
- 扩缩容：NiFi还被设计成以非常灵活的方式扩大和缩小，从NiFi框架的角度来看，在配置时，可以在Scheduling选项卡下增加处理器上并发任务的数量

NiFi是高度并发的，并将并发的复杂性封装在自己内部。Processor为您提供了高级抽象，它隐藏了并行编程固有的复杂性。 Processor同步运行，可以为它分配多个线程来应对负载。

NiFi通过多种机制全面的跟踪系统状态，来实现了高度的可靠性。这些机制是可配置的，可以根据需求在延迟和吞吐量之间进行适当的权衡。

NiFi利用血缘和出处特征来跟踪每条数据的历史记录。这使得NiFi具有追踪每条数据发生什么转变的能力。

Apache Nifi提出的数据血缘解决方案被证明是审计数据管道的出色工具。

1.2 Apache NiFi特性

Apache NiFi支持数据路由、转换和系统中介逻辑的强大且可伸缩的有向图。

基于浏览器的用户界面：设计、控制、反馈和监控的无缝体验。
数据来源跟踪：完整从开始到结束跟踪信息。
丰富的配置
- 容错和保证交付
- 低延迟，高吞吐量
- 动态优先级
- 流配置的运行时修改
- 背压控制
可扩展的设计
- 定制处理器和服务的组件体系结构
- 快速开发和迭代测试
安全通信
- HTTPS，具有可配置的身份验证策略
- 多租户授权和策略管理
- 用于加密通信的标准协议，包括TLS和SSH

1.2 Apache NiFi核心概念

FlowFile：表示在系统中移动的每个对象，对于每个对象，NiFi跟踪键/值对属性字符串的映射及其零或多字节的相关内容。
- 每一块"用户数据"(即用户带入NiFi进行处理和分发的数据)都被称为一个FlowFile。
- 一个FlowFile由两部分组成:属性和内容。内容就是用户数据本身。属性是与用户数据相关联的键值对
FlowFile Processor：处理器实际执行工作，处理器是在系统之间进行数据路由、转换或中介的某种组合。处理器可以访问给定的FlowFile及其内容流的属性。处理器可以在给定的工作单元中操作零个或多个flowfile，并提交该工作或回滚。
- 处理器是NiFi组件，负责创建、发送、接收、转换、路由、拆分、合并和处理流文件。它是NiFi用户用于构建数据流的最重要的构建块。
Connection：连接提供处理器之间的实际链接。充当队列，允许各种进程以不同的速率进行交互。这些队列可以动态地划分优先级，并且可以设置负载上限，从而启用背压。

Flow Controller：流控制器维护进程如何连接，并管理所有进程使用的线程及其分配。流控制器充当了促进处理器之间流文件交换的代理。
Process Group：进程组是一组特定的进程及其连接，这些进程可以通过输入端口接收数据，通过输出端口发送数据。通过这种方式，流程组允许通过简单地组合其他组件来创建全新的组件。

这种设计模型帮助NiFi成为构建强大且可伸缩的数据流的非常有效的平台，其好处如下：

很好地用于处理器有向图的可视化创建和管理。
本质上是异步的，允许非常高的吞吐量和自然缓冲，即使处理和流速率波动。
提供了一个高度并发的模型，开发人员不必担心并发性的典型复杂性。
促进内聚和松散耦合组件的开发，这些组件可以在其他上下文中重用，并促进可测试单元的开发。
资源受限的连接使得诸如回压和压力释放等关键功能非常自然和直观。
错误处理变得像快乐之路一样自然，而不是粗粒度的一刀切。
数据进入和退出系统的点以及它如何流经系统都很容易理解和跟踪。

1.3架构

NiFi的设计目的是充分利用它所运行的底层主机系统的功能，对IO、CPU、RAM高效使用，这种资源最大化在CPU和磁盘方面表现得尤为突出，详细信息在管理指南中的最佳实践和配置技巧中。

NiFi在主机操作系统上的JVM中执行，JVM上NiFi的主要组件如下:

Web Server：web服务器的目的是承载NiFi基于http的命令和控制API。
Flow Controller：流量控制器是操作的大脑，它为要运行的扩展提供线程，并管理扩展何时接收要执行的资源的调度。
Extensions：各种类型的NiFi扩展，这里的关键点是扩展在JVM中操作和执行。
FlowFile Repository：流文件存储库是NiFi跟踪当前流中活动的给定流文件状态的地方。存储库的实现是可插入的。默认方法是位于指定磁盘分区上的持久预写日志。
Content Repository：内容存储库是一个给定的FlowFile的实际内容字节所在的地方。存储库的实现是可插入的。默认的方法是一种相当简单的机制，即在文件系统中存储数据块。可以指定多个文件系统存储位置，以便使用不同的物理分区，以减少任何单个卷上的争用。
Provenance Repository：源头存储库是存储所有源头事件数据的地方。存储库结构是可插入的，默认实现是使用一个或多个物理磁盘卷。在每个位置中，事件数据都被索引并可搜索。

NiFi也能够在集群中运行，NiFi 采用了零领导者集群，NiFi集群中的每个节点在数据上执行相同的任务，但每个节点操作不同的数据集。Apache ZooKeeper选择一个节点作为Cluster Coordinator，故障转移由ZooKeeper自动处理。所有集群节点都向集群协调器报告心跳和状态信息。集群协调器负责断开和连接节点。此外，每个集群都有一个主节点，也由ZooKeeper选举产生。作为DataFlow管理器，可通过任何节点的用户界面(UI)与NiFi集群交互，操作更改复制到集群中的所有节点，允许多个入口点。

二、NiFi的诞生，要致力于解决的问题有哪些？

因为网络故障、磁盘故障、软件崩溃、人为犯错导致的系统错误
数据读写超出了自身系统的处理能力，有时，给定数据源的速度可能超过处理或交付链的某些部分，而只需要某一个环节出现问题，整个流程都会受到影响。
获取的数据不具有规范性（即：超出边界问题：总是会得到太大、太小、太快、太慢、损坏、错误或格式错误的数据。）
数据结构的优先级变化很快，启用新流和更改现有流的速度必须非常快（现实业务或需求变化快：设计新的数据处理流程或者修改已有的数据处理流程必须要够敏捷。）
数据结构化管理的可移植性与不同数据格式之间的依赖性
难以在测试环境模拟生产环境数据。

三、为什么使用NiFi?

大量 --- 包括采集、存储和计算的量都非常大。大数据的计量单位由TB、PB（1000）个T、EB（100万个T）、ZB（10亿个T）不断发展。
多样性 --- 种类和来源多样化。包括结构化 、半结构化 和非结构化数据，具体表现为网络日志、音频、视频、图片、地理位置信息等等，多类型的数据对数据的处理能力提出了更高的要求
高速 --- 数据增长速度快，处理速度也快，时效性要求高
准确性 --- 数据的准确性和可信赖度，即数据的质量

NiFi无缝地从多个数据源提取数据 ，并提供了处理不同模式数据的机制。因此，当数据的"多样性"较高时，它会发挥价值。并且NiFi提供了多个Processor来清理和格式化数据。

微服务很新潮。在那些松散耦合的服务中，服务之间的数据就是契约。 Nifi是在这些服务之间路由数据的可靠方法。
万物互联的时代，物联网将大量数据带到云中。从边缘到云的数据摄取和验证带来了许多新挑战，NiFi可以有效应对这些挑战（主要通过 $MiniFi$ ，这是针对边缘设备的NiFi子项目）。
制定了新的准则和法规促使大数据经济重新调整。在日益增加的监控范围内，对于企业来说，对其数据管道有清晰的总览非常重要。例如，NiFi数据血缘可能有助于遵守法规。

简单来说，NiFi是用来处理数据集成场景的数据分发。NiFi是基于Java的，使用Maven支持包的构建管理。 NiFi基于Web方式工作，后台在服务器上进行调度。用户可以为数据处理定义为一个流程，然后进行处理，后台具有数据处理引擎、任务调度等组件。

常见处理器

想到创建数据流必须了解可供使用的处理器类型，NiFi包含许多开箱即用的不同处理器，这些处理器提供了从许多不同系统摄取数据、路由、转换、处理、分割和聚合数据以及将数据分发到许多系统的功能。几乎在每一个NiFi发行版中，可用的处理器数量都会增加。因此将不尝试为每个可用的处理器命名，下面重点介绍一些最常用的处理器，并根据它们的功能对它们进行分类。

数据转换
- CompressContent：压缩或解压缩内容。
- ConvertCharacterSet：将用于对内容进行编码的字符集转换为另一个字符集。
- EncryptContent：加密或解密内容。
- ReplaceText：使用正则表达式修改文本内容。
- TransformXml：对XML内容应用XSLT转换。
- JoltTransformJSON：应用JOLT规范转换JSON内容
路由和中介
- ControlRate：限制数据通过流的一部分的速率。
- DetectDuplicate：基于一些用户定义的标准，监控重复的flowfile。通常与HashContent一起使用。
- DistributeLoad：通过仅将一部分数据分发到每个用户定义的关系来实现负载平衡或示例数据。
- MonitorActivity：当用户定义的一段时间过去了，没有任何数据通过流中的特定点时，发送一个通知。可以选择在数据流恢复时发送通知。
- RouteOnAttribute：基于属性th的路由流文件。
- ScanAttribute：扫描FlowFile上的用户定义属性集，检查是否有任何属性与用户定义字典中的术语匹配。
- RouteOnContent：搜索FlowFile的内容，看它是否匹配任何用户定义的正则表达式。如果是，则将FlowFile路由到配置的Relationship。
- ScanContent：根据用户定义的字典和路由中存在或不存在的术语搜索FlowFile的内容。字典可以由文本项或二进制项组成。
- ValidateXml：根据XML模式验证XML内容;根据用户定义的XML模式，根据FlowFile的内容是否有效来路由FlowFile。
数据库访问
- ConvertJSONToSQL：将JSON文档转换为SQL INSERT或UPDATE命令，然后传递给PutSQL处理器。
- ExecuteSQL：执行用户定义的SQL SELECT命令，将结果以Avro格式写入FlowFile。
- PutSQL：通过执行由FlowFile内容定义的SQL DDM语句来更新数据库。
- SelectHiveQL：对Apache Hive数据库执行用户自定义的HiveQL SELECT命令，将结果以Avro或CSV格式写入FlowFile。
- PutHiveQL：通过执行由FlowFile的内容定义的HiveQL DDM语句来更新Hive数据库。
属性提取
- EvaluateJsonPath：用户提供JSONPath表达式(类似于XPath，用于XML解析/提取)，然后根据JSON内容计算这些表达式，以替换FlowFile内容或将值提取到用户命名的属性中。
- EvaluateXPath：用户提供XPath表达式，然后根据XML内容计算这些表达式，以替换FlowFile内容或将值提取到用户命名的属性中。
- EvaluateXQuery：用户提供一个XQuery查询，然后根据XML内容计算该查询，以替换FlowFile内容或将值提取到用户命名的属性中。
- ExtractText：用户提供一个或多个正则表达式，然后根据FlowFile的文本内容计算正则表达式，然后将提取的值作为用户命名的属性添加。
系统交互
- ExecuteProcess:执行用户自定义的操作系统命令。流程的StdOut被重定向，这样写入StdOut的内容就变成了出站FlowFile的内容。这个处理器是一个源处理器------它的输出预计会生成一个新的FlowFile，而系统调用预计不会接收任何输入。为了向流程提供输入，请使用ExecuteStreamCommand处理器。
- ExecuteStreamCommand:执行用户自定义的操作系统命令。FlowFile的内容可选地流到进程的StdIn中。写入StdOut的内容成为出站FlowFile的内容。
数据摄取
- GetFile：将本地磁盘(或网络连接磁盘)中的文件内容流到NiFi中，然后删除原始文件。此处理器预计将文件从一个位置移动到另一个位置，而不是用于复制数据。
- GetFTP：通过FTP将远程文件的内容下载到NiFi，然后删除原始文件。此处理器预计将数据从一个位置移动到另一个位置，而不是用于复制数据。
- GetHDFS：监控HDFS中用户指定的目录。每当有新文件进入HDFS时，它就会被复制到NiFi中，然后从HDFS中删除。此处理器预计将文件从一个位置移动到另一个位置，而不是用于复制数据。如果在集群中运行，这个处理器也只能在主节点上运行。为了从HDFS复制数据并保留数据，或者从集群中的多个节点传输数据，请参阅ListHDFS处理器。
- GetKafka：从Apache Kafka中获取消息，特别是对于0.8。x版本。消息可以作为每条消息的FlowFile发出，也可以使用用户指定的分隔符将消息批处理在一起。
- GetMongo：对MongoDB执行用户指定的查询，并将内容写入新的FlowFile。
数据发送
- PutFile：将FlowFile的内容写入本地(或网络连接)文件系统上的目录。
- PutFTP：将FlowFile的内容复制到远程FTP服务器。
- PutKafka：将FlowFile的内容作为消息发送给Apache Kafka，特别是0.8。x版本。FlowFile可以作为单个消息或分隔符发送，例如可以指定一个新行，以便为单个FlowFile发送多个消息。
- PutMongo：将FlowFile的内容作为INSERT或UPDATE发送到Mongo。
拆分和聚合
- SplitText：SplitText接收一个包含文本内容的FlowFile，并根据配置的行数将其拆分为1个或多个FlowFile。例如，处理器可以被配置为将一个FlowFile分割成许多个FlowFile，每个FlowFile只有1行。
- SplitJson：允许用户将一个由数组或许多子对象组成的JSON对象拆分为每个JSON元素的FlowFile。
- MergeContent：这个处理器负责将多个FlowFile合并为一个FlowFile。可以通过将它们的内容连同可选的页眉、页脚和分界符连接在一起，或者通过指定归档格式(如ZIP或TAR)来合并flowfile。