前置资源
一、ELK日志分析系统简介
ELK 平台是一套完整的日志集中处理解决方案,将 ElasticSearch 、 Logstash 和 Kibana 三个开源工具 ,配合使用, 完成更强大的用户对日志的查询、排序、统计需求。
ELK 是 Elasticsearch 、 Logstash 、 Kibana 的缩写,这三个工具组合在一起,用于数据收集、存储、 搜索和可视化分析。它们的角色如下:
- Elasticsearch:【搜索和存储】核心搜索和分析引擎,负责存储数据并提供快速的全文搜索和分析功能。
- Logstash:【收集数据与处理】数据收集和处理管道,能够从各种来源(如日志文件、数据库)收集数据,并进行过滤和转换,然后将其发送到Elasticsearch。
- Kibana:【数据可视化工具】提供图形界面来展示和分析存储在Elasticsearch中的数据,支持创建各种图表和仪表板。
简单理解
ELK Stack 是一个一体化的工具包,帮助用户从多个数据源中收集数据、存储并进行快速搜索、分析和可视化,适合于日志分析、监控、数据可视化等场景。
二、Elasticsearch介绍
提供了一个分布式多用户能力的全文搜索引擎
ElasticSearch :是基于 Lucene (一个全文检索引擎的架构)开发的分布式存储检索引擎,用来存储各类日志。 是用 Java 开发的,可通过 RESTful Web 接口 ,让用户可以通过浏览器与Elasticse
rch通讯,且是一个实时的、分布式的可扩展的搜索引擎,允许进行全文、结构化搜索,它通常用于索引和搜索大容量的日志数据,也可用于搜索许多不同类型的文档。
**2.1、**核心功能
- 全文搜索:Elasticsearch最广为人知的功能是全文搜索。它能够对文本数据进行快速的全文索引和搜索,是实现复杂搜索功能的理想工具。
- 实时数据分析:支持实时的数据更新和查询,适合用于日志分析、监控数据的实时处理等场景。
- 分布式架构:Elasticsearch基于分布式架构设计,支持跨集群的数据存储和检索,使其在扩展性和性能上具有很大优势。
- RESTful API:Elasticsearch使用简单的HTTP接口(RESTful API),支持通过各种语言和平台进行集成。
**2.2、**架构与组件
- 集群(Cluster):一个或多个Elasticsearch节点(实例)组成一个集群,集群中的所有节点协同工作,共享数据和负载。
- 节点(Node):运行Elasticsearch的单个实例,节点可以有不同的角色(如主节点、数据节点等),负责存储数据和处理查询。
- 索引(Index):一个索引类似于传统数据库中的一个表,包含了一个数据集。每个索引都有唯一 的名称,用于引用其中的文档。
- 文档(Document):Elasticsearch中的最小数据单元,每个文档是一个JSON格式的对象,存储在 索引中。
- 分片(Shard):每个索引可以被分割为多个分片(shards),每个分片是一个Lucene索引。分片提供了数据的分布和并行处理能力,确保系统的高可用性和可扩展性。
- 副本(Replica):每个分片都可以有一个或多个副本,用于数据冗余和提高系统的容错能力。
**2.3、**使用场景
- 日志和事件数据分析:适合处理大规模的日志、事件流数据,提供实时的查询和分析能力。常与 Logstash和Kibana(组成ELK Stack)一起使用。
- 全文搜索应用:如电子商务网站中的产品搜索,社交媒体平台的用户内容搜索。
- 监控和报警系统:通过与Kibana等工具结合,提供数据的可视化和实时监控功能。
- 商业智能(BI):支持复杂数据查询和分析,帮助企业从数据中获取洞察。
2.4、 Elasticsearch优点与缺点
优点:
- 高性能:得益于Lucene的底层支持,Elasticsearch在处理全文搜索和分析操作时性能非常优越。
- 易扩展:其分布式架构设计使得集群可以随着数据量的增长而轻松扩展。
- 灵活性强:支持多种数据类型和复杂查询语法,可以适应各种不同的应用需求。
- 开放源代码:免费且活跃的社区支持,用户可以自由定制和扩展。
缺点:
- 资源消耗:作为一个内存密集型应用,Elasticsearch对硬件资源的要求较高,尤其在处理大量数据时。
- 学习曲线:虽然Elasticsearch易于集成,但对于新手来说,理解其复杂的查询DSL(Domain
- Specific Language)和架构可能需要一些时间。
- 管理复杂性:在大型分布式集群环境中,管理和调优Elasticsearch需要相当的专业知识
三、Logstash介绍
Logstash 作为数据收集引擎。它支持动态的从各种数据源搜集数据,并对数据进行过滤、分析、丰 富、统一格式等操作,然后将处理后的数据发送到存储或分析系统(例如Elasticsearch )。
Logstash 由 Ruby 语言编写,运行在 Java 虚拟机( JVM )上,是一款强大的数据处理工具, 可以实现数据传输、格式处理、格式化输出。Logstash 具有强大的插件功能,常用于日志处理。
**3.1、**主要特点
- 数据收集 :
Logstash 能够从多种数据源(如日志文件、数据库、消息队列等)收集数据。
它支持各种输入插件,这些插件帮助你从不同的系统或服务中提取数据。 - 数据处理 :
Logstash 使用过滤器插件来处理数据,可以对数据进行清洗、格式转换、字段解析等操作。
支持丰富的数据处理操作,比如正则表达式解析、日期转换、字段拆分和合并等。 - 数据输出 :
处理后的数据可以被发送到多种输出目标,如 Elasticsearch 、关系型数据库、消息队列、文
件系统等。
输出插件的灵活性使得 Logstash 能够与各种系统集成。 - 可扩展性 :
Logstash 的架构允许通过插件轻松扩展和自定义,插件包括输入插件、过滤器插件、输出插
件和编码插件等。 - 实时处理 :
Logstash 支持实时数据处理,适用于需要快速数据流的场景,比如实时日志监控、数据流分
析等。
**3.2、**使用场景
- 日志收集和分析:从各种日志文件中提取数据(如系统日志、应用日志),然后将数据发送到
- Elasticsearch进行集中化分析和监控。
- 数据转换:在数据进入目标存储之前,对其进行清理、格式化和标准化处理。
- 数据流整合:从多种来源获取数据,将其汇聚到一个统一的平台进行进一步的分析和决策支持。
组件 input (数据采集) filter (数据过滤) output( 数据输出 )
**3.3 、**其他数据收集组件
①****Filebeat
轻量级的开源日志文件数据搜集器。通常在需要采集数据的客户端安装 Filebeat ,并指定目录与日
志格式, Filebeat 就能快速收集数据,并发送给 logstash 进或是直接发给 Elasticsearch 存储, 性能上相比运行于 JVM 上的 logstash 优势明显,是对它的替代 。常应用于 EFLK 架构当中。行解析
filebeat 结合 logstash 带来好处:
-
通过 Logstash 的自适应缓冲系统减轻 Elasticsearch 的压力 :
Logstash 拥有一个强大的基于磁盘的缓冲系统,这意味着在高负载情况下,它能够暂时存储无法即时处理的数据到磁盘上,而不是直接丢弃或导致系统崩溃。这种机制有效地缓解了 Elasticsearch 接收数据的压力,特别是在数据高峰时段,确保了数据的完整性和系统的稳定性。
-
从多种数据源提取数据 :
Logstash 不仅仅局限于处理日志文件,它还能够从各种数据源 (如数据库、S3 对象存储、消息队列等)中提取数据。这种能力使得 Logstash 成为了一个强大的数据收集工具,能够集成到更广泛的数据处理流程中。 -
支持多目标输出 :
Logstash 支持将数据发送到多个目的地,如 S3、HDFS、文件系统等。这种灵活性使得用户可以根据实际需求定制数据处理流程,将日志数据存储在最适合的存储系统中,便于后续的分析和归档。
-
复杂的处理管道 :
Logstash 提供了丰富的插件和灵活的配置选项,允许用户构建复杂的处理管道。通过条件数据流逻辑,用户可以对数据进行过滤、转换、聚合等操作,以满足不同的业务需求。这种能力使得 Logstash 在处理复杂日志数据时具有极高的灵活性和可定制性。
-
缓存/消息队列的集成 :
在 Filebeat 和 Logstash 之间或 Logstash 与 Elasticsearch 之间集成缓存/消息队列(如 Redis、Kafka、RabbitMQ 等)可以带来额外的优势。这些系统能够作为数据缓冲层,对高并发日志数据进行流量削峰和缓冲,从而保护后端系统免受突发流量的冲击。同时,它们还提供了数据持久化的能力,即使在发生系统故障时也能保证数据不丢失。此外,缓存/消息队列的引入还可以实现应用解耦,使得各个系统之间更加独立和易于维护。
1 )通过 Logstash 具有基于磁盘的自适应缓冲系统,该系统将吸收传入的吞吐量,从而减轻
Elasticsearch 持续写入数据的压力
2 )从其他数据源(例如数据库, S3 对象存储或消息传递队列)中提取
3 )将数据发送到多个目的地,例如 S3 , HDFS ( Hadoop 分布式文件系统)或写入文件
4 )使用条件数据流逻辑组成更复杂的处理管道
缓存 / 消息队列( redis 、 kafka 、 RabbitMQ 等) :可以对高并发日志数据进行流量削峰和缓冲,这样 的缓冲可以一定程度的保护数据不丢失,还可以对整个架构进行应用解耦。
② Fluentd
是一个流行的开源数据收集器。由于 logstash 太重量级的缺点, Logstash 性能低、资源消耗比较
多等问题,随后就有 Fluentd 的出现。相比较 logstash , Fluentd 更易用、资源消耗更少、性能更高, 在数据处理上更高效可靠,受到企业欢迎,成为 logstash 的一种替代方案,常应用于 EFK 架构当中。 在Kubernetes 集群中也常使用 EFK 作为日志数据收集的方案 。
在 Kubernetes 集群中一般是通过 DaemonSet 来运行 Fluentd ,以便它在每个 Kubernetes 工作节点上 都可以运行一个 Pod 。 它通过获取容器日志文件、过滤和转换日志数据,然后将数据传递到
Elasticsearch 集群,在该集群中对其进行索引和存储。
四、Kibana介绍
Kibana 通常与 Elasticsearch 一起部署, Kibana 是 Elasticsearch 的一个功能强大的数据可视化
Dashboard , Kibana 提供图形化的 web 界面来浏览 Elasticsearch 日志数据,可以用来汇总、分析和 搜索重要数据。它为用户提供了交互式仪表盘、图表和报告功能,用于更好地理解数据。
4.1 Kibana****的主要功能
- 数据可视化(Visualizations):
Kibana 提供丰富的可视化工具,可以通过折线图、饼图、柱状图、地图等方式展示数据。 用户可以根据需求自定义图表样式,以便更好地分析和解读数据。 支持创建动态可视化,根据过滤器和时间范围即时更新显示内容。 - 仪表板(Dashboards):
Kibana 的仪表板是一种用来展示多个可视化图表的集合,可以通过仪表板同时监控多个数据 来源或系统状态。
仪表板支持交互式过滤器,用户可以在不同时间范围、不同条件下实时查看数据。 - 日志管理和搜索(Log Management & Discovery):
Kibana 的 "Discovery" 功能提供了对 Elasticsearch 中存储的原始数据的实时搜索与过滤功能。
用户可以根据条件快速查询和检索日志、数据记录等内容,并使用强大的过滤器和查询语言 (KQL 或 Lucene)来精准获取所需信息。 - 时间序列分析(Time Series Analytics):
使用 Kibana 的 "TSVB"(Time Series Visual Builder),用户可以进行复杂的时间序列分析。
它支持创建基于时间的数据图表,常用于监控系统性能、用户活动趋势等。 - 报警与监控(Alerts & Monitoring):
Kibana 可以通过与 Elasticsearch 和 Logstash 的集成提供数据监控、报警通知功能。
用户可以设置阈值,当数据达到某个条件时,Kibana 可以自动触发报警并发送通知。 - 安全和访问控制(Security & Access Control):
Kibana 提供基于角色的访问控制,管理员可以根据用户角色来设置权限,例如是否允许访问 某些数据或仪表板。
Kibana 支持与外部认证系统(如 LDAP、OAuth)集成。 - 机器学习(Machine Learning):
Kibana 提供了与 Elastic Stack 的机器学习功能集成,用户可以对数据进行异常检测、趋势预测和自动模式识别。
可以通过无监督的机器学习算法自动检测数据中的异常行为。 - 地图和地理可视化(Maps & Geospatial Visualization):
Kibana 提供了强大的地理数据可视化功能,通过 Elastic Maps 可以显示地理数据、绘制地 图并叠加数据层。
支持动态过滤和聚合地理数据,适用于位置数据分析、物流、地理信息系统等领域。 - Canvas****和报告(Canvas & Reporting):
Canvas: Kibana 的 Canvas 功能允许用户创建高度自定义的、视觉吸引力强的报告和展示。 Reporting: Kibana 支持自动生成报告,可以通过预定义模板或自定义的方式导出 PDF、CSV报告。 - 监控(Monitoring):
Kibana 提供 Elastic Stack 组件的监控功能,帮助用户监控 Elasticsearch 集群、Logstash 管 道等系统的健康状况、性能和资源使用情况。
4.2 Kibana****的使用场景
- 日志管理与分析 :
通过 Kibana 可以对大量的日志数据进行集中管理与分析,帮助开发者、运维工程师及时发现
系统故障、监控应用程序状态。 - 实时监控 :
运用 Kibana 的仪表板和报警功能,用户可以对系统的性能和服务进行实时监控,并在异常时
及时采取行动。 - 业务数据分析 :
Kibana 可以用于对商业数据(如销售数据、用户行为数据)进行深度分析,帮助企业决策。 - 安全分析与威胁检测 :
通过集成 Elastic Security , Kibana 可以用来检测网络中的安全威胁,分析安全日志,进行入
侵检测。 - 机器学习与数据预测 :
Kibana 提供的机器学习功能可用于自动化的数据预测、趋势识别和异常检测,适用于金融预
测、系统监控等场景。
4.3 Kibana****的工作原理
- 数据存储在 Elasticsearch 中 :
Kibana 本身不存储数据 ,而是通过 Elasticsearch 查询和检索存储的数据。 Elasticsearch 是
Kibana 的数据源,数据可以从不同来源(如 Logstash 、 Beats 、 API 等)存储到
Elasticsearch 中。 - 查询和分析 :
用户在 Kibana 中执行查询时, Kibana 会向 Elasticsearch 发送查询请求。查询可以使用
Kibana Query Language (KQL) 或 Lucene 查询语法。 - 数据可视化和展示 :
查询结果返回后, Kibana 会通过各种可视化工具(如图表、地图、仪表盘等)展示数据,帮
助用户快速理解和分析数据。
五、为什么要使用****ELK
日志主要包括系统日志、应用程序日志和安全日志。系统运维和开发人员可以通过日志了解服务器软 硬件信息、检查配置过程中的错误及错误发生的原因。经常分析日志可以了解服务器的负荷,性能安全 性,从而及时采取措施纠正错误。
往往单台机器的日志我们使用 grep 、 awk等工具就能基本实现简单分析,但是当日志被分散的储存不同的设备上。如果你管理数 十上百台服务器 ,你还在使用依次登录每台机器的传统方法查阅日志。这样是 不是感觉很 繁琐和效率低下 。当务之急我们使用集中化的日志管理,例如:开源的 syslog ,将所有服务 器上的日志收集汇总。集中化管理日志后,日志的统计和检索又成为一件比较麻烦的事情,一般我们使 用 grep 、 awk 和 wc 等 Linux 命令能实现检索和统计,但是对于要求更高的查询、排序和统计等要求和庞 大的机器数量依然使用这样的方法难免有点力不从心。
一般大型系统是一个分布式部署的架构,不同的服务模块部署在不同的服务器上,问题出现时,大部 分情况需要根据问题暴露的关键信息,定位到具体的服务器和服务模块,构建一套集中式日志系统, 可以提高定位问题的效率 。
5**.1、完整日志系统基本特征**
- 收集:能够采集多种来源的日志数据
- 传输:能够稳定的把日志数据解析过滤并传输到存储系统
- 存储:存储日志数据
- 分析:支持 UI 分析
- 警告:能够提供错误报告,监控机制
5**.2、ELK****的工作原理**
( 1 )在所有需要收集日志的服务器上部署 Logstash ;或者先将日志进行集中化管理在日志服务器上,在日志服务器上部署 Logstash 。
( 2 ) Logstash 收集日志,将日志格式化并输出到 Elasticsearch 群集中。
( 3 ) Elasticsearch 对格式化后的数据进行索引和存储。
( 4 ) Kibana 从 ES 群集中查询数据生成图表,并进行前端数据的展示。
六、部署ELK日志分析系统
官方网站(中文) :https://www.elastic.co/cn/downloads/
|----------------|-----------------------|---------------------------|
| 配置与名称 | IP | 服务 |
| Node1节点(2C/4G) | node1/192.168.88.76 | Elasticsearch (集群) Kibana |
| Node2节点(2C/4G) | node1/192.168.88.77 | Elasticsearch(集群) |
| Apache 节点 | apache/192.168.88.200 | Logstash Apache |
6.1、环境准备
1、关闭防火墙与增强功能
systemctl stop firewalld #关闭防火墙
setenforce 0 #关闭增强功能
2、更改主机名、配置域名解析、查看Java环境
Node1节点:hostnamectl set-hostname node1
Node2节点:hostnamectl set-hostname node2
3、主机名与IP解析
vim /etc/hosts
192.168.88.76 node1
192.168.88.77 node2
4、java安装
注:版本问题
java -version #如果没有安装,yum -y install java
openjdk version "1.8.0_131"
OpenJDK Runtime Environment (build 1.8.0_131-b12)
OpenJDK 64-Bit Server VM (build 25.131-b12, mixed mode)
6.2、Elasticsearch 集群部署
在 Node1 、 Node2 节点上操作
1、部署 Elasticsearch 软件
(1)安装elasticsearch---rpm包
上传 elasticsearch-6.6.1.rpm 到 /opt 目录下
cd /opt
rpm -ivh elasticsearch-6.6.1.rpm
(2)加载系统服务
systemctl daemon-reload
命令在 Linux 系统中,特别是在使用 systemd 作为系统和服务管理器的系统上,扮演着重要的角色。这个命令的主要作用是重新加载 systemd 的配置文件,包括服务单元(unit)文件,但不重启任何服务。
systemctl daemon-reload
systemctl enable elasticsearch.service
(3)修改elasticsearch主配置文件
备份好习惯
cp /etc/elasticsearch/elasticsearch.yml /etc/elasticsearch/elasticsearch.yml.bak
vim /etc/elasticsearch/elasticsearch.yml
--17--取消注释,指定集群名字
cluster.name: my-elk-cluster
--23--取消注释,指定节点名字:Node1节点为node1,Node2节点为node2
node.name: node1
--33--取消注释,指定数据存放路径
path.data: /data/elk_data
--37--取消注释,指定日志存放路径
path.logs: /var/log/elasticsearch/
--43--取消注释,改为在启动的时候不锁定内存
bootstrap.memory_lock: false
--55--取消注释,设置监听地址,0.0.0.0代表所有地址
network.host: 0.0.0.0
--59--取消注释,ES 服务的默认监听端口为9200
http.port: 9200
--68--取消注释,集群发现通过单播实现,指定要发现的节点 node1、node2
discovery.zen.ping.unicast.hosts: ["node1", "node2"]
grep -v "^#" /etc/elasticsearch/elasticsearch.yml
cluster.name: my-elk-cluster
node.name: node1
path.data: /data/elk_data
path.logs: /var/log/elasticsearch/
bootstrap.memory_lock: false
network.host: 0.0.0.0
http.port: 9200
discovery.zen.ping.unicast.hosts: ["node1", "node2"]
(4)创建数据存放路径并授权
mkdir -p /data/elk_data
chown elasticsearch:elasticsearch /data/elk_data/
(5)启动elasticsearch是否成功开启
systemctl start elasticsearch.service
netstat -anulpt |grep 9200
(6)查看节点信息
浏览器访问 http://192.168.88.76:9200、http://192.168.88.77:9200查看节点 Node1、Node2 的信息。
浏览器访问
http://192.168.88.76:9200/_cluster/health?pretty
http://192.168.88.77:9200/_cluster/health?pretty
查看群集的健康情况,可以看到 status 值为 green(绿色), 表示节点健康运行。
- 绿色:健康 数据和副本 全都没有问题
- 红色:数据都不完整
- 黄色:数据完整,但副本有问题
浏览器访问 http://192.168.88.77:9200/_cluster/state?pretty 检查群集状态信息。
使用上述方式查看群集的状态对用户并不友好,可以通过安装 Elasticsearch-head 插件,可以更方便地管理群集。
其他
如果不知道配置文件
rpm -qc elasticsearch
**6.3、**安装 Elasticsearch-head 插件
Elasticsearch 在 5.0 版本后,Elasticsearch-head 插件需要作为独立服务进行安装,需要使用npm 工具(NodeJS的包管理工具)安装。
安装 Elasticsearch-head 需要提前安装好依赖软件 node 和 phantomjs 。
- node:是一个基于 Chrome V8 引擎的 JavaScript 运行环境。
- phantomjs:是一个基于 webkit 的JavaScriptAPI,可以理解为一个隐形的浏览器,任何基于 webkit 浏览器做的事情,它都可以做到。
( 1 )编译安装 node
上传软件包 node-v8.1.2.tar.gz 到 /opt
yum install gcc gcc-c++ make -y
cd /opt
tar zxvf node-v8.1.2.tar.gz
cd node-v8.1.2/
./configure
make && make install
( 2 )安装 phantomjs (前端的框架)
上传软件包 phantomjs-2.1.1-linux-x86_64.tar.bz2 到
cd /opt
tar jxvf phantomjs-2.1.1-linux-x86_64.tar.bz2 -C /usr/local/src/
cd /usr/local/src/phantomjs-2.1.1-linux-x86_64/bin
cp phantomjs /usr/local/bin
( 3 )安装 Elasticsearch-head 数据可视化工具
上传软件包 elasticsearch-head.tar.gz 到 /opt
cd /opt
tar zxvf elasticsearch-head.tar.gz -C /usr/local/src/
cd /usr/local/src/elasticsearch-head/
npm install
(4)修改 Elasticsearch 主配置文件
vim /etc/elasticsearch/elasticsearch.yml
--末尾添加以下内容--
http.cors.enabled: true #开启跨域访问支持,默认为 false
http.cors.allow-origin: "*" #指定跨域访问允许的域名地址为所有
---------------------------------------------------------------------------
http.cors.enabled: true
http.cors.allow-origin: "*"
systemctl restart elasticsearch
(5)启动 elasticsearch-head 服务
必须在解压后的 elasticsearch-head 目录下启动服务,进程会读取该目录下的 gruntfile.js 文件,否则可能启动失败。
cd /usr/local/src/elasticsearch-head/
npm run start &
elasticsearch-head 监听的端口是 9100
netstat -natp |grep 9100
(6)通过 Elasticsearch-head 查看 Elasticsearch 信息
通过浏览器访问 http://192.168.88.76:9100/ 地址并连接群集。如果看到群集健康值为 green 绿色,代表群集很健康。
注意'连接'可能需要自己对应localhost改为节点地址
(7)插入索引
通过命令插入一个测试索引,索引为 index-demo,类型为 test。
输出结果如下:
curl -X PUT 'localhost:9200/index-demo1/test/1?pretty&pretty' -H 'content-Type: application/json' -d '{"user":"zhangsan","mesg":"hello world"}'
浏览器访问 http://192.168.10.76:9100/ 查看索引信息,可以看见索引默认被分片5个,并且有一个副本。
点击"数据浏览",会发现在node1上创建的索引为 index-demo,类型为 test 的相关信息。
**6.4、**Logstash 部署
(在 Apache 节点上操作)
Logstash 一般部署在需要监控其日志的服务器。在本案例中,Logstash 部署在 Apache 服务器上,用于收集 Apache 服务器的日志信息并发送到 Elasticsearch。
1.更改主机名
hostnamectl set-hostname apache
2.安装Apahce服务(httpd)
yum -y install httpd
systemctl start httpd
3.安装Java环境
yum -y install java
java -version
4.安装logstash
上传软件包 logstash-6.6.1.rpm 到/opt目录下
cd /opt
rpm -ivh logstash-6.6.1.rpm
systemctl start logstash.service
systemctl enable logstash.service
ln -s /usr/share/logstash/bin/logstash /usr/local/bin/
5.测试 Logstash
Logstash 命令常用选项:
- -f:通过这个选项可以指定 Logstash 的配置文件,根据配置文件配置 Logstash 的输入和输出流。
- -e:从命令行中获取,输入、输出后面跟着字符串,该字符串可以被当作 Logstash 的配置(如果是空,则默认使用 stdin 作为输入,stdout 作为输出)。
- -t:测试配置文件是否正确,然后退出。
定义输入和输出流:
①、输入采用标准输入,输出采用标准输出(类似管道)
logstash -e 'input { stdin{} } output { stdout{} }'
www.baidu.com #键入内容(标准输入)
执行 ctrl+c 退出
②、使用 rubydebug 输出详细格式显示,codec 为一种编解码器
logstash -e 'input { stdin{} } output { stdout{ codec=>rubydebug } }'
www.baidu.com #键入内容(标准输入)
③、使用 Logstash 将信息写入 Elasticsearch 中
logstash -e 'input { stdin{} } output { elasticsearch { hosts=>["192.168.88.76:9200"] } }'
输入 输出 对接
......
www.baidu.com #键入内容(标准输入)
www.sina.com.cn #键入内容(标准输入)
www.google.com #键入内容(标准输入)
结果不在标准输出显示,而是发送至 Elasticsearch 中,可浏览器访问 http://192.168.88.86:9100/ 查看索引信息和数据浏览。
6.定义 logstash配置文件
Logstash 配置文件基本由三部分组成:input、output 以及 filter(可选,根据需要选择使用)。
- input:表示从数据源采集数据,常见的数据源如Kafka、日志文件等
- filter:表示数据处理层,包括对数据进行格式化处理、数据类型转换、数据过滤等,支持正则表达式
- output:表示将Logstash收集的数据经由过滤器处理之后输出到Elasticsearch。
格式如下:
input {...}
filter {...}
output {...}
在每个部分中,也可以指定多个访问方式。例如,若要指定两个日志来源文件,
则格式如下:
input {
file { path =>"/var/log/messages" type =>"syslog"}
file { path =>"/var/log/httpd/access.log" type =>"apache"}
}
修改 Logstash 配置文件,让其收集系统日志/var/log/messages,并将其输出到 elasticsearch 中。
让 Logstash 可以读取日志
chmod +r /var/log/messages
vim /etc/logstash/conf.d/system.conf
注意格式!
input {
file{
path =>"/var/log/messages" #指定要收集的日志的位置
type =>"system" #自定义日志类型标识
start_position =>"beginning" #表示从开始处收集
}
}
output {
elasticsearch { #输出到 elasticsearch
hosts => ["192.168.88.77:9200"] #指定 elasticsearch 服务器的地址和端口
index =>"system-%{+YYYY.MM.dd}" #指定输出到 elasticsearch 的索引格式
}
}
----------------------------------------------------------------------------------
input {
file {
path => "/var/log/messages"
type => "system"
start_position => "beginning"
}
}
output {
elasticsearch {
hosts => ["192.168.88.76:9200"]
index => "system-%{+YYYY.MM.dd}"
}
}
systemctl restart logstash
浏览器访问 http://192.168.88.76:9100/ 查看索引信息
6.5、 Kiabana 部署
(在 Node1 节点上操作)
官方网站 :https://www.elastic.co/cn/downloads/kibana/
1.安装 Kiabana
上传软件包kibana-6.6.1-x86_64.rpm到/opt目录
cd /opt
rpm -ivh kibana-6.6.1-x86_64.rpm
2.设置 Kibana 的主配置文件
备份cp /etc/kibana/kibana.yml{,_bak-$(date +%Y.%m.%d)}
vim /etc/kibana/kibana.yml
--2--取消注释,Kiabana 服务的默认监听端口为5601
server.port: 5601
--7--取消注释,设置 Kiabana 的监听地址,0.0.0.0代表所有地址
server.host: "0.0.0.0"
--28--取消注释,设置和 Elasticsearch 建立连接的地址和端口
elasticsearch.hosts: ["http://192.168.10.13:9200"]
--37--取消注释,设置在 elasticsearch 中添加.kibana索引
kibana.index: ".kibana"
grep -v "^#" /etc/kibana/kibana.yml | grep -v "^$"
3.启动 Kibana 服务
systemctl start kibana.service
systemctl enable kibana.service
netstat -natp | grep 5601
4.验证 Kibana
浏览器访问 http://192.168.88.76:5601
第一次登录需要添加一个 Elasticsearch 索引:
Index Patterns---》create index Patterns
输入:system-* #在索引名中输入之前配置的 Output 前缀"system"
然后--》Next step(下一步)--》Time Filter field name--》@timestarmp
单击 "create index Patterns" 按钮创建,单击 "Discover" 按钮可查看图表信息及日志信息。
数据展示可以分类显示,在"Available Fields"中的"host",然后单击 "add"按钮,可以看到按照"host"筛选后的结果
后面再次创建的步骤---》Management--》index Patterns--》单击 "create index Patterns" 按钮创建
5.将 Apache 服务器的日志(访问的、错误的)添加到 Elasticsearch 并通过 Kibana 显示
vim /etc/logstash/conf.d/apache_log.conf
input {
file {
path => "/etc/httpd/logs/access_log"
type => "access"
start_position => "beginning"
}
file {
path => "/etc/httpd/logs/error_log"
type => "error"
start_position => "beginning"
}
}
output {
if [type] == "access" {
elasticsearch {
hosts => ["192.168.88.76:9200"]
index => "apache_access-%{+YYYY.MM.dd}"
}
}
if [type] == "error" {
elasticsearch {
hosts => ["192.168.88.76:9200"]
index => "apache_error-%{+YYYY.MM.dd}"
}
}
}
cd /etc/logstash/conf.d/
/usr/share/logstash/bin/logstash -f apache_log.conf
浏览器访问 http://192.168.88.76:9100 查看索引是否创建
我们会发现只有一个错误error的索引,那正确的access为什么没有呢
肯定是/etc/httpd/logs/access_log日志数据文件有问题
首先看一下文件存在
但是没有内容
浏览器访问 http://192.168.88.76:5601 登录 Kibana,
单击"Create Index Pattern"按钮添加索引, 在索引名中输入之前配置的 Output 前缀 apache_access-*,并单击"Create"按钮。
在用相同的方法添加 apache_error-*索引。
选择"Discover"选项卡,在中间下拉列表中选择刚添加的 apache_access-* 、apache_error-* 索引, 可以查看相应的图表及日志信息。
七、Filebeat+ELK 部署
单纯的ELK适合小型架构 ,ELFK是中型业务中用的,后面还会有大型的
官方网站(中文下载):Download Filebeat • Lightweight Log Analysis | Elastic
|----------------|------------------------|---------------------------|
| 配置与名称 | IP | 服务 |
| Node1节点(2C/4G) | node1/192.168.88.76 | Elasticsearch (集群) Kibana |
| Node2节点(2C/4G) | node1/192.168.88.77 | Elasticsearch(集群) |
| Apache 节点 | apache/192.168.88.200 | Logstash Apache |
| Filebeat节点 | filebeat/192.168.88.78 | Filebeat |
在 Filebeat节点 节点上操作
https://www.elastic.co/cn/downloads/beats/filebeat
1.安装 Filebeat 两种
① 二进制解包即可
上传软件包 filebeat-6.2.4-linux-x86_64.tar.gz 到/opt目录
tar zxvf filebeat-6.2.4-linux-x86_64.tar.gz
mv filebeat-6.2.4-linux-x86_64/ /usr/local/filebeat
② 使用rpm包安装 上传包
rpm -ivh filebeat-6.6.1-x86_64.rpm
2.设置 filebeat 的主配置文件
① 如果使用第一种方式按照如下配置
vim /etc/filebeat/filebeat.yml
filebeat.inputs:
- type: log #指定 log 类型,从日志文件中读取消息
enabled: true
paths:
- /var/log/messages #指定监控的日志文件
- /var/log/*.log
fields: #可以使用 fields 配置选项设置一些参数字段添加到 output 中
service_name: filebeat
log_type: log
service_id: 192.168.88.78
--------------Elasticsearch output-------------------
(全部注释掉)
----------------Logstash output---------------------
#放开
output.logstash:
hosts: ["192.168.88.200:5044"] #指定 logstash 的 IP 和端口
启动 filebeat
filebeat -e -c filebeat.yml
但是我们没有去设5044,看3
② rpm包方式安装 配置都一样(同)
vim /etc/filebeat/filebeat.yml
3.在 Logstash 组件 所在节点上新建一个 Logstash 配置文件
cd /etc/logstash/conf.d
vim logstash.conf
input {
beats {
port => "5044"
}
}
output {
elasticsearch {
hosts => ["192.168.88.76:9200"]
index => "%{[fields][service_name]}-%{+YYYY.MM.dd}"
}
stdout {
codec => rubydebug
}
}
启动 logstash
logstash -f logstash.conf
4.浏览器访问 http://192.168.88.76:5601 登录 Kibana,
先点击Management-->"Index Pattern"-->"Create Index Pattern"按钮创建-->选择输入"Index Pattern"-->然后Next step(下一步)-->Time Filter field name-->@timestarmp
单击 "Discover" 按钮可查看图表信息及日志信息。 按钮添加索引"filebeat-*"
其他
遇到了一个问题
netstat -tulnp | grep 5044
占用
kill -9 进程号