ELK+kafka+filebeat企业内部日志分析系统

ELK:日志搜集平台

ELK由ElasticSearch、Logstash和Kiabana三个开源工具组成：

1、组件介绍

1、Elasticsearch

ElasticSearch（ES）是一个基于Lucene的开源分布式搜索服务器，用于搜索和分析日志。

特点：分布式，零配置，自动发现，索引自动分片，索引副本机制等。

提供了一个分布式多用户能力的全文搜索引擎。Elasticsearch是用Java开发的，并作为Apache许可条款下的开放源码发布，设计用于云计算中，能够达到实时搜索，稳定，可靠，快速，安装使用方便。在elasticsearch中，所有节点的数据是均等的。

2、Logstash

Logstash是一个完全开源工具，对日志进行收集、过滤、分析，并将其存储供以后使用，用于收集、过滤日志和改格式

复制代码

简单来说logstash就是一根具备实时数据传输能力的管道，负责将数据信息从管道的输入端传输到管道的输出端；与此同时这根管道还可以让你根据自己的需求在中间加上滤网，Logstash提供里很多功能强大的滤网以满足你的各种应用场景。

② Logstash的事件（logstash将数据流中等每一条数据称之为一个event）处理流水线有三个主要角色完成：inputs --> filters --> outputs

logstash整个工作流分为三个阶段：输入、过滤、输出。每个阶段都有强大的插件提供支持。

输入(Inputs)：必需， 负责接收来自不同数据源的日志数据，插件如下：

file 从文件系统收集数据
syslog 从syslog日志收集数据
redis 从Redis队列获取数据
beats 从Elastic的Beats系列工具（如Filebeat、Metricbeat等）接收数据。

Filter可选，负责数据处理与转换（filters modify ），常用的插件有：

grok是logstash中最常用的日志解释和结构化插件。：grok是一种采用组合多个预定义的正则表达式，用来匹配分割文本并映射到关键字的工具。
mutate 支持事件的变换，例如重命名、移除、替换、修改等
drop 完全丢弃事件
clone 克隆事件

output 输出，必需，负责数据输出（outputs ship elsewhere）,常用的插件有

elasticsearch 把数据输出到elasticsearch
file 把数据输出到普通的文件

3、Kibana

Kibana 是一个基于浏览器页面的Elasticsearch前端展示工具，也是一个开源和免费的工具，Kibana可以为 Logstash 和 ElasticSearch 提供的日志分析友好的 Web 界面，可以帮你汇总、分析和搜索重要数据日志。

2、环境介绍

安装软件	主机名	IP地址	系统版本
es+zk	mes-1-zk	192.168.246.234 192.168.157.131	centos7.4--3G
es+zookeeper+kafka/Logstash	es-2-zk-log	192.168.246.231 192.168.157.129	centos7.4--2G
zk+es+head+Kibana+file	es-3-head	192.168.246.235 192.168.157.128	centos7.4---2G

所有机器关闭防火墙，selinux

3、版本说明

Matlab 复制代码

Elasticsearch: 7.13.2 #wget https://artifacts.elastic.co/downloads/elasticsearch/elasticsearch-7.13.2-linux-x86_64.tar.gz
Logstash: 7.13.2 #wget https://artifacts.elastic.co/downloads/logstash/logstash-7.13.2-linux-x86_64.tar.gz
Kibana: 7.13.2 #wget https://artifacts.elastic.co/downloads/kibana/kibana-7.13.2-linux-x86_64.tar.gz
Kafka: 2.11-2.1  #https://archive.apache.org/dist/kafka/2.1.0/kafka_2.11-2.1.0.tgz
Filebeat: 7.13.2
相应的版本最好下载对应的插件

相关地址：Elasticsearch 7.13.2 | Elastic

官网地址：https://www.elastic.co

官网搭建：Documentation

ELK实施部署

1、 Elasticsearch部署

Matlab 复制代码

Elasticsearch最关键的就是提供强大的索引能力。
Elasticsearch索引的精髓：一切设计都是为了提高搜索的性能
Elasticsearch优势
1.横向可扩展性:只需要增加服务器，做一点儿配置，启动一下Elasticsearch就可以并入集群。
2.分片机制提供更好的分布性:同一个索引分成多个分片, 分而治之的方式可提升处理效率。
3.高可用:提供复制( replica) 机制，一个分片可以设置多个复制，使得某台服务器在宕机的情况下，
集群仍旧可以照常运行，并会把服务器宕机丢失的数据信息复制恢复到其他可用节点上。
Elasticsearch存储结构
Elasticsearch是文件存储，Elasticsearch是面向文档型数据库，一条数据在这里就是一个文档

系统类型：Centos7.5

示例节点IP：172.16.246.234

软件版本：jdk-8u191-linux-x64.tar.gz、elasticsearch 7.13.2.tar.gz

1、安装配置jdk8

ES运行依赖jdk8 -----三台机器都操作，先上传jdk1.8

Matlab 复制代码

[root@mes-1 ~]# tar xzf jdk-8u191-linux-x64.tar.gz -C /usr/local/
[root@mes-1 ~]# cd /usr/local/
[root@mes-1 local]# mv jdk1.8.0_191/ java
[root@mes-1 local]# echo '
JAVA_HOME=/usr/local/java
PATH=$JAVA_HOME/bin:$PATH
export JAVA_HOME PATH
' >>/etc/profile
[root@mes-1 ~]# source /etc/profile

2、安装配置ES

----只在第一台操作操作下面的部分

（1）创建运行ES的普通用户

Matlab 复制代码

[root@mes-1 ~]# useradd elsearch
[root@mes-1 ~]# echo "123456" | passwd --stdin "elsearch"
================

#如果是集群三台机器都操作

（2）安装配置ES

--如果是集群，三台机器都操作

Matlab 复制代码

[root@mes-1 ~]# tar xzf elasticsearch-7.13.2.tar.gz -C /usr/local/
[root@mes-1 ~]# cd /usr/local/elasticsearch-7.13.2/config/
[root@mes-1 config]# ls
elasticsearch.yml  log4j2.properties  roles.yml  users_roles
jvm.options        role_mapping.yml   users
[root@mes-1 config]# cp elasticsearch.yml elasticsearch.yml.bak
[root@mes-1 config]# vim elasticsearch.yml    ----找个地方添加如下内容
cluster.name: elk
cluster.initial_master_nodes: ["192.168.246.234","192.168.246.231","192.168.246.235"]
node.name: elk01
node.master: true
node.data: true
path.data: /data/elasticsearch/data
path.logs: /data/elasticsearch/logs
bootstrap.memory_lock: false
bootstrap.system_call_filter: false
network.host: 0.0.0.0
http.port: 9200
transport.tcp.port: 9300
discovery.seed_hosts: ["192.168.246.234", "192.168.246.235"]
discovery.zen.minimum_master_nodes: 2
discovery.zen.ping_timeout: 150s
discovery.zen.fd.ping_retries: 10
client.transport.ping_timeout: 60s
http.cors.enabled: true
http.cors.allow-origin: "*"

Matlab 复制代码

单节点配置
cluster.name: elk
cluster.initial_master_nodes: ["10.36.153.131"] #单机只写本机ip
node.name: elk01
node.master: true
node.data: true
path.data: /data/elasticsearch/data
path.logs: /data/elasticsearch/logs
bootstrap.memory_lock: false
bootstrap.system_call_filter: false
network.host: 10.36.153.131 #单机只写本机ip
http.port: 9200
transport.tcp.port: 9300
discovery.seed_hosts: ["10.36.153.131"] #单机只写本机ip
#discovery.zen.minimum_master_nodes: 2
#discovery.zen.ping_timeout: 150s
#discovery.zen.fd.ping_retries: 10
#client.transport.ping_timeout: 60s
http.cors.enabled: true
http.cors.allow-origin: "*"

Matlab 复制代码

集群配置项含义：
cluster.name        集群名称，各节点配成相同的集群名称。
cluster.initial_master_nodes 集群ip，默认为空，如果为空则加入现有集群，第一次需配置
node.name       节点名称，各节点配置不同。
node.master     指示某个节点是否符合成为主节点的条件。
node.data       指示节点是否为数据节点。数据节点包含并管理索引的一部分。
path.data       数据存储目录。
path.logs       日志存储目录。
bootstrap.memory_lock       
bootstrap.system_call_filter
network.host    绑定节点IP。
http.port       端口。
transport.tcp.port  集群内部tcp连接端口
discovery.seed_hosts    提供其他 Elasticsearch 服务节点的单点广播发现功能，这里填写除了本机的其他ip
discovery.zen.minimum_master_nodes  集群中可工作的具有Master节点资格的最小数量，具有master资格的节点的数量。
discovery.zen.ping_timeout      节点在发现过程中的等待时间。
discovery.zen.fd.ping_retries        节点发现重试次数。
http.cors.enabled              用于允许head插件访问ES。
http.cors.allow-origin              允许的源地址。

（3）设置JVM堆大小

---#如果是集群三台机器都操作

Matlab 复制代码

[root@mes-1 config]# vim jvm.options     ----将
-Xms1g    ----修改成 -Xms2g
-Xmx1g    ----修改成 -Xms2g

或者:
推荐设置为4G，请注意下面的说明：
sed -i 's/-Xms1g/-Xms4g/' /usr/local/elasticsearch-7.13.2/config/jvm.options
sed -i 's/-Xmx1g/-Xmx4g/' /usr/local/elasticsearch-7.13.2/config/jvm.options

注意：确保堆内存最小值（Xms）与最大值（Xmx）的大小相同，防止程序在运行时改变堆内存大小。
堆内存大小不要超过系统内存的50%

（4）创建ES数据及日志存储目录

Matlab 复制代码

[root@mes-1 ~]# mkdir -p /data/elasticsearch/data       (/data/elasticsearch)
[root@mes-1 ~]# mkdir -p /data/elasticsearch/logs       (/log/elasticsearch)

Matlab 复制代码

[root@mes-1 ~]# chown -R elsearch:elsearch /data/elasticsearch
[root@mes-1 ~]# chown -R elsearch:elsearch /usr/local/elasticsearch-7.13.2

3、系统优化

（1）增加最大文件打开数

Matlab 复制代码

永久生效方法：echo "* - nofile 65536" >> /etc/security/limits.conf

（2）增加最大进程数

Matlab 复制代码

[root@mes-1 ~]# vim /etc/security/limits.conf    ---在文件最后面添加如下内容
* soft nofile 65536
* hard nofile 131072
* soft nproc 2048
* hard nproc 4096
更多的参数调整可以直接用这个

（3）增加最大内存映射数

Matlab 复制代码

[root@mes-1 ~]# vim /etc/sysctl.conf   ---添加如下
vm.max_map_count=262144
vm.swappiness=0
[root@mes-1 ~]# sysctl -p

启动如果报下列错误

Matlab 复制代码

memory locking requested for elasticsearch process but memory is not locked
elasticsearch.yml文件
bootstrap.memory_lock : false
/etc/sysctl.conf文件
vm.swappiness=0

错误:
max file descriptors [4096] for elasticsearch process is too low, increase to at least [65536]
意思是elasticsearch用户拥有的客串建文件描述的权限太低，知道需要65536个
解决：
切换到root用户下面，
vim   /etc/security/limits.conf
在最后添加
* hard nofile 65536
* hard nofile 65536
重新启动elasticsearch，还是无效？
必须重新登录启动elasticsearch的账户才可以，例如我的账户名是elasticsearch，退出重新登录。
另外*也可以换为启动elasticsearch的账户也可以，* 代表所有，其实比较不合适

启动还会遇到另外一个问题，就是
max virtual memory areas vm.max_map_count [65530] is too low, increase to at least [262144]
意思是：elasticsearch用户拥有的内存权限太小了，至少需要262114。这个比较简单，也不需要重启，直接执行
# sysctl -w vm.max_map_count=262144
就可以了

4、启动ES

Matlab 复制代码

#如果是集群，三台机器都启动
[root@mes-1 ~]# su - elsearch
Last login: Sat Aug  3 19:48:59 CST 2019 on pts/0
~]$ cd /usr/local/elasticsearch-6.5.4/
elasticsearch-7.13.2]$ ./bin/elasticsearch  #先启动看看报错不，需要多等一会
终止之后
elasticsearch-7.13.2]$ nohup ./bin/elasticsearch &  #放后台启动
[1] 11462
nohup: ignoring input and appending output to 'nohup.out'
[root@mes-1 elasticsearch-6.5.4]$ tail -f nohup.out   #看一下是否启动
或者:
su - elsearch -c "cd /usr/local/elasticsearch-7.13.2 && nohup bin/elasticsearch &"

测试：浏览器访问http://172.16.246.234:9200

Matlab 复制代码

9200与9300端口号的区别
9300端口： ES节点之间通讯使用，是TCP协议端口号，ES集群之间通讯端口号。
9200端口： ES节点和外部通讯使用，暴露接口端口号。浏览器访问时使用

5.安装配置head监控插件（Web前端）

在Elasticsearch中，Head插件是一个用于浏览和管理Elasticsearch集群的Web界面工具。它提供了一个直观的界面，可以用于查看索引、文档、节点以及执行各种操作，例如搜索、聚合和索引管理等。
Grunt是一种JavaScript任务运行器，用于自动化构建、编译和部署项目。它可以通过配置文件定义一系列任务，然后通过命令行或其他工具运行这些任务。在Elasticsearch中使用Head插件时，Grunt用于构建和打包Head插件的源代码，以便在浏览器中展示和运行插件。
只需要在一台ES上安装就可以了。这里选择：192.168.246.235

（1）安装node

Matlab 复制代码

[root@es-3-head-kib ~]# wget https://npm.taobao.org/mirrors/node/v14.15.3/node-v14.15.3-linux-x64.tar.gz
~]# tar xzvf node-v14.15.3-linux-x64.tar.gz -C /usr/local/
~]# vim /etc/profile   #添加如下变量
NODE_HOME=/usr/local/node-v14.15.3-linux-x64
PATH=$NODE_HOME/bin:$PATH
export NODE_HOME PATH
~]# source /etc/profile
~]# node --version  #检查node版本号
v14.15.3

（2）下载head插件

Matlab 复制代码

[root@es-3-head-kib ~]# wget https://github.com/mobz/elasticsearch-head/archive/master.zip
[root@es-3-head-kib ~]# unzip -d /usr/local/ master.zip
[root@es-3-head-kib ~]# cd /usr/local
或者
unzip --d /usr/local elasticsearch-head-master.zip

（3）安装grunt

Matlab 复制代码

cd elasticsearch-head-master/
npm config set registry https://registry.npmmirror.com  #更换一个镜像，如果不更换下载会很慢
npm install -g grunt-cli  #时间会很长
grunt --version  #检查grunt版本号

（4）修改head源码

Matlab 复制代码

vim /usr/local/elasticsearch-head-master/Gruntfile.js +95
（第95行左右）

添加hostname，注意在上一行末尾添加逗号,hostname 不需要添加逗号

Matlab 复制代码

 vim /usr/local/elasticsearch-head-master/_site/app.js +4359
(第4359行左右)

如果在一台机器上面可以不修改下面的操作。保持原来的就可以了

如果是集群需要修改如下信息:

原本是http://localhost:9200 ，如果head和ES不在同一个节点，注意修改成ES的IP地址

（5）下载PhantomJS工具

PhantomJS是一个无界面、基于WebKit的可编程脚本工具。它可以用于模拟浏览器环境，执行各种网页操作，例如加载网页、点击按钮、填写表单等。在Elasticsearch的Head插件中，PhantomJS被用于在服务器端渲染Head插件的界面，并生成静态的HTML文件，以便在浏览器中展示和访问。它是Head插件的一个必要文件，用于实现服务器端渲染和静态HTML文件生成的功能。

Matlab 复制代码

[root@es-3-head-kib ~]# wget https://github.com/Medium/phantomjs/releases/download/v2.1.1/phantomjs-2.1.1-linux-x86_64.tar.bz2
[root@es-3-head-kib ~]# yum -y install bzip2
[root@es-3-head-kib ~]# tar -jxf phantomjs-2.1.1-linux-x86_64.tar.bz2 -C /tmp/

（6）运行head

Matlab 复制代码

[root@es-3-head-kib ~]# cd /usr/local/elasticsearch-head-master/
[root@es-3-head-kib elasticsearch-head-master]# npm config set registry https://registry.npmmirror.com  #先执行这条命令更换一个镜像
[root@es-3-head-kib elasticsearch-head-master]# npm install
...
grunt-contrib-jasmine@1.0.3 node_modules/grunt-contrib-jasmine
├── sprintf-js@1.0.3
├── lodash@2.4.2
├── es5-shim@4.5.13
├── chalk@1.1.3 (escape-string-regexp@1.0.5, supports-color@2.0.0, ansi-styles@2.2.1, strip-ansi@3.0.1, has-ansi@2.0.0)
├── jasmine-core@2.99.1
├── rimraf@2.6.3 (glob@7.1.4)
└── grunt-lib-phantomjs@1.1.0 (eventemitter2@0.4.14, semver@5.7.0, temporary@0.0.8, phan
如果报错执行：
npm install phantomjs-prebuilt@2.1.16 --ignore-scripts

nohup grunt server &  #后台运行grunt
tailf nohup.out       #查看运行情况

（7）测试

访问http://172.16.246.235:9100

分片

Matlab 复制代码

1.在Elasticsearch中，索引被分割成多个分片（shard），每个分片是索引的一个子集，包含了
一部分数据。主分片（Primary Shard）是索引划分的基本单位，它负责存储数据的一部分。
主分片有以下特点：
（1）主分片是索引的核心，它负责处理所有的写入操作。当文档被索引时，它会首先被分配给一
个主分片进行处理。
（2）主分片是索引的最小存储单元，索引中的所有数据都被分配给多个主分片进行存储。默认情
况下，每个索引被划分为5个主分片，但这个数量可以在创建索引时进行配置。
（3）主分片在创建索引时就确定，并且无法修改。这是因为分片的数量直接影响了数据存储和查
询的性能，所以在创建索引时需要根据数据量和查询需求来合理配置主分片的数量。
主分片的作用：
将数据分布在不同节点上，实现数据的分布式存储和处理。通过将索引的数据分散在多个主分片
上，Elasticsearch能够实现数据的并行处理和负载均衡，提高系统的性能和扩展性。
2.复制分片（Replica Shard）：主要是进行数据冗余来提高系统的可靠性。
复制分片的数量可以在创建索引时进行配置，并且可以在运行时动态修改。
增加复制分片的数量会提高系统的可靠性和性能，但同时也会增加系统的存储需求和网络带宽
的消耗。因此，在配置复制分片数量时需要权衡可靠性、性能和资源消耗之间的关系。
复制分片作用：
（1）高可用性：如果主分片所在的节点故障，复制分片可以自动接管请求，保证数据的可用性。
（2）并行处理：复制分片可以并行处理读请求，提高读取数据的效率。
（3）扩展性：通过增加复制分片的数量，可以扩展系统的读取能力，提高系统的吞吐量。
3.区别：
主分片只负责处理写入操作，而读取操作涉及到主分片和复制分片（Replica Shard）。
复制分片用于提供数据的冗余备份和读取操作的并行处理，它们是主分片的完整副本，分布在
不同的节点上。

集群状态

Matlab 复制代码

Elasticsearch集群状态主要有以下几种：
1.Green（绿色）：表示集群健康状态良好，所有主分片和复制分片都正常分配，集群能够应对任何
故障，能够正常提供读写服务。
2.Yellow（黄色）：表示集群健康状态一般，所有主分片都正常分配，但是有一些复制分片还没有
分配到节点上。这通常是因为节点故障或者集群配置不合理导致的。
3.Red（红色）：表示集群健康状态差，至少有一个主分片没有被分配到节点上。这通常是因为节点
故障、分片丢失或者集群配置不合理导致的。

2、 Kibana部署

系统类型：Centos7.5

节点IP：192.168.246.235

软件版本：nginx-1.14.2、kibana-6.5.4-linux-x86_64.tar.gz

下载地址：Past Releases of Elastic Stack Software | Elastic

1. 安装配置Kibana

（1）解压安装

Matlab 复制代码

tar zvxf kibana-7.13.2-linux-x86_64.tar.gz -C /usr/local/

（2）配置

Matlab 复制代码

[root@es-3-head-kib ~]# cd /usr/local/kibana-7.13.2-linux-x86_64/config/
[root@es-3-head-kib config]# vim kibana.yml
server.port: 5601
server.host: "192.168.246.235"
elasticsearch.hosts: ["http://192.168.246.234:9200"]
kibana.index: ".kibana"
i18n.locale: "zh-CN"

配置项含义：

Matlab 复制代码

server.port kibana服务端口，默认5601
server.host kibana主机IP地址，默认localhost
elasticsearch.hosts   用来做查询的ES节点的URL，默认http://localhost:9200
kibana.index        kibana在Elasticsearch中使用索引来存储保存
dashboards，默认.kibana

（3）启动

Matlab 复制代码

nohup /usr/local/kibana-7.13.2-linux-x86_64//bin/kibana --allow-root &

ELK+kafka+filebeat企业内部日志分析系统

ELK:日志搜集平台

1、组件介绍

1、Elasticsearch

2、Logstash

3、Kibana

2、环境介绍

3、版本说明

ELK实施部署

1、 Elasticsearch部署

1、安装配置jdk8

2、安装配置ES

（1）创建运行ES的普通用户

（2）安装配置ES

（3）设置JVM堆大小

（4）创建ES数据及日志存储目录

（5）修改安装目录及存储目录权限

3、系统优化

（1）增加最大文件打开数

（2）增加最大进程数

（3）增加最大内存映射数

4、启动ES

5.安装配置head监控插件（Web前端）

（1）安装node

（2）下载head插件

（3）安装grunt

（4）修改head源码

（5）下载PhantomJS工具

（6）运行head

（7）测试

分片

集群状态

2、 Kibana部署

1. 安装配置Kibana

（1）解压安装

（2）配置

（3）启动

2. 安装配置Nginx反向代理

（1）配置YUM源

ELK+kafka+filebeat企业内部日志分析系统

ELK:日志搜集平台

1、组件介绍

1、Elasticsearch

2、Logstash

3、Kibana

2、环境介绍

3、版本说明

ELK实施部署

1、 Elasticsearch部署

1、安装配置jdk8

2、安装配置ES

（1）创建运行ES的普通用户

（2）安装配置ES

（3）设置JVM堆大小

（4）创建ES数据及日志存储目录

（5）修改安装目录及存储目录权限

3、系统优化

（1）增加最大文件打开数

（2）增加最大进程数

（3）增加最大内存映射数

​4、启动ES

5.安装配置head监控插件（Web前端）

（1）安装node

（2）下载head插件

（3）安装grunt

（4）修改head源码

（5）下载PhantomJS工具

（6）运行head

（7）测试

分片

集群状态

2、 Kibana部署

1. 安装配置Kibana

（1）解压安装

（2）配置

（3）启动

2. 安装配置Nginx反向代理

（1）配置YUM源

4、启动ES