ELK+kafka+filebeat企业内部日志分析系统

ELK:日志搜集平台

ELK由ElasticSearch、Logstash和Kiabana三个开源工具组成:

1、组件介绍

1、Elasticsearch

ElasticSearch(ES)是一个基于Lucene的开源分布式搜索服务器,用于搜索和分析日志。

特点:分布式,零配置,自动发现,索引自动分片,索引副本机制等

提供了一个分布式多用户能力的全文搜索引擎。Elasticsearch是用Java开发的,并作为Apache许可条款下的开放源码发布,设计用于云计算中,能够达到实时搜索,稳定,可靠,快速,安装使用方便。 在elasticsearch中,所有节点的数据是均等的。

2、Logstash

Logstash是一个完全开源工具,对日志进行收集、过滤、分析,并将其存储供以后使用,用于收集、过滤日志和改格式

复制代码
简单来说logstash就是一根具备实时数据传输能力的管道,负责将数据信息从管道的输入端传输到管道的输出端;与此同时这根管道还可以让你根据自己的需求在中间加上滤网,Logstash提供里很多功能强大的滤网以满足你的各种应用场景。

② Logstash的事件(logstash将数据流中等每一条数据称之为一个event)处理流水线有三个主要角色完成:inputs --> filters --> outputs

logstash整个工作流分为三个阶段:输入、过滤、输出。每个阶段都有强大的插件提供支持。

输入(Inputs): 必需, 负责接收来自不同数据源的日志数据,插件如下:

  • file 从文件系统收集数据
  • syslog 从syslog日志收集数据
  • redis 从Redis队列获取数据
  • beats 从Elastic的Beats系列工具(如Filebeat、Metricbeat等)接收数据。

Filter可选,负责数据处理与转换(filters modify ),常用的插件有:

  • grok是logstash中最常用的日志解释和结构化插件。:grok是一种采用组合多个预定义的正则表达式,用来匹配分割文本并映射到关键字的工具。
  • mutate 支持事件的变换,例如重命名、移除、替换、修改等
  • drop 完全丢弃事件
  • clone 克隆事件

output 输出,必需,负责数据输出(outputs ship elsewhere),常用的插件有

  • elasticsearch 把数据输出到elasticsearch
  • file 把数据输出到普通的文件

3、Kibana

Kibana 是一个基于浏览器页面的Elasticsearch前端展示工具,也是一个开源和免费的工具,Kibana可以为 Logstash 和 ElasticSearch 提供的日志分析友好的 Web 界面,可以帮你汇总、分析和搜索重要数据日志。

2、环境介绍

安装软件 主机名 IP地址 系统版本
es+zk mes-1-zk 192.168.246.234 192.168.157.131 centos7.4--3G
es+zookeeper+kafka/Logstash es-2-zk-log 192.168.246.231 192.168.157.129 centos7.4--2G
zk+es+head+Kibana+file es-3-head 192.168.246.235 192.168.157.128 centos7.4---2G

所有机器关闭防火墙,selinux

3、版本说明

Matlab 复制代码
Elasticsearch: 7.13.2 #wget https://artifacts.elastic.co/downloads/elasticsearch/elasticsearch-7.13.2-linux-x86_64.tar.gz
Logstash: 7.13.2 #wget https://artifacts.elastic.co/downloads/logstash/logstash-7.13.2-linux-x86_64.tar.gz
Kibana: 7.13.2 #wget https://artifacts.elastic.co/downloads/kibana/kibana-7.13.2-linux-x86_64.tar.gz
Kafka: 2.11-2.1  #https://archive.apache.org/dist/kafka/2.1.0/kafka_2.11-2.1.0.tgz
Filebeat: 7.13.2
相应的版本最好下载对应的插件

相关地址:Elasticsearch 7.13.2 | Elastic

官网地址:https://www.elastic.co

官网搭建:Documentation

ELK实施部署

1、 Elasticsearch部署

Matlab 复制代码
Elasticsearch最关键的就是提供强大的索引能力。
Elasticsearch索引的精髓:一切设计都是为了提高搜索的性能
Elasticsearch优势
1.横向可扩展性:只需要增加服务器,做一点儿配置,启动一下Elasticsearch就可以并入集群。
2.分片机制提供更好的分布性:同一个索引分成多个分片, 分而治之的方式可提升处理效率。
3.高可用:提供复制( replica) 机制,一个分片可以设置多个复制,使得某台服务器在宕机的情况下,
集群仍旧可以照常运行,并会把服务器宕机丢失的数据信息复制恢复到其他可用节点上。
Elasticsearch存储结构
Elasticsearch是文件存储,Elasticsearch是面向文档型数据库,一条数据在这里就是一个文档

系统类型:Centos7.5

示例节点IP:172.16.246.234

软件版本:jdk-8u191-linux-x64.tar.gz、elasticsearch 7.13.2.tar.gz

1、安装配置jdk8

ES运行依赖jdk8 -----三台机器都操作,先上传jdk1.8

Matlab 复制代码
[root@mes-1 ~]# tar xzf jdk-8u191-linux-x64.tar.gz -C /usr/local/
[root@mes-1 ~]# cd /usr/local/
[root@mes-1 local]# mv jdk1.8.0_191/ java
[root@mes-1 local]# echo '
JAVA_HOME=/usr/local/java
PATH=$JAVA_HOME/bin:$PATH
export JAVA_HOME PATH
' >>/etc/profile
[root@mes-1 ~]# source /etc/profile

2、安装配置ES

----只在第一台操作操作下面的部分

(1)创建运行ES的普通用户

Matlab 复制代码
[root@mes-1 ~]# useradd elsearch
[root@mes-1 ~]# echo "123456" | passwd --stdin "elsearch"
================
​
#如果是集群三台机器都操作

(2)安装配置ES

--如果是集群,三台机器都操作

Matlab 复制代码
[root@mes-1 ~]# tar xzf elasticsearch-7.13.2.tar.gz -C /usr/local/
[root@mes-1 ~]# cd /usr/local/elasticsearch-7.13.2/config/
[root@mes-1 config]# ls
elasticsearch.yml  log4j2.properties  roles.yml  users_roles
jvm.options        role_mapping.yml   users
[root@mes-1 config]# cp elasticsearch.yml elasticsearch.yml.bak
[root@mes-1 config]# vim elasticsearch.yml    ----找个地方添加如下内容
cluster.name: elk
cluster.initial_master_nodes: ["192.168.246.234","192.168.246.231","192.168.246.235"]
node.name: elk01
node.master: true
node.data: true
path.data: /data/elasticsearch/data
path.logs: /data/elasticsearch/logs
bootstrap.memory_lock: false
bootstrap.system_call_filter: false
network.host: 0.0.0.0
http.port: 9200
transport.tcp.port: 9300
discovery.seed_hosts: ["192.168.246.234", "192.168.246.235"]
discovery.zen.minimum_master_nodes: 2
discovery.zen.ping_timeout: 150s
discovery.zen.fd.ping_retries: 10
client.transport.ping_timeout: 60s
http.cors.enabled: true
http.cors.allow-origin: "*"
Matlab 复制代码
单节点配置
cluster.name: elk
cluster.initial_master_nodes: ["10.36.153.131"] #单机只写本机ip
node.name: elk01
node.master: true
node.data: true
path.data: /data/elasticsearch/data
path.logs: /data/elasticsearch/logs
bootstrap.memory_lock: false
bootstrap.system_call_filter: false
network.host: 10.36.153.131 #单机只写本机ip
http.port: 9200
transport.tcp.port: 9300
discovery.seed_hosts: ["10.36.153.131"] #单机只写本机ip
#discovery.zen.minimum_master_nodes: 2
#discovery.zen.ping_timeout: 150s
#discovery.zen.fd.ping_retries: 10
#client.transport.ping_timeout: 60s
http.cors.enabled: true
http.cors.allow-origin: "*"
Matlab 复制代码
​集群配置项含义:
cluster.name        集群名称,各节点配成相同的集群名称。
cluster.initial_master_nodes 集群ip,默认为空,如果为空则加入现有集群,第一次需配置
node.name       节点名称,各节点配置不同。
node.master     指示某个节点是否符合成为主节点的条件。
node.data       指示节点是否为数据节点。数据节点包含并管理索引的一部分。
path.data       数据存储目录。
path.logs       日志存储目录。
bootstrap.memory_lock       
bootstrap.system_call_filter
network.host    绑定节点IP。
http.port       端口。
transport.tcp.port  集群内部tcp连接端口
discovery.seed_hosts    提供其他 Elasticsearch 服务节点的单点广播发现功能,这里填写除了本机的其他ip
discovery.zen.minimum_master_nodes  集群中可工作的具有Master节点资格的最小数量,具有master资格的节点的数量。
discovery.zen.ping_timeout      节点在发现过程中的等待时间。
discovery.zen.fd.ping_retries        节点发现重试次数。
http.cors.enabled              用于允许head插件访问ES。
http.cors.allow-origin              允许的源地址。

(3)设置JVM堆大小

---#如果是集群三台机器都操作

Matlab 复制代码
[root@mes-1 config]# vim jvm.options     ----将
-Xms1g    ----修改成 -Xms2g
-Xmx1g    ----修改成 -Xms2g
​
或者:
推荐设置为4G,请注意下面的说明:
sed -i 's/-Xms1g/-Xms4g/' /usr/local/elasticsearch-7.13.2/config/jvm.options
sed -i 's/-Xmx1g/-Xmx4g/' /usr/local/elasticsearch-7.13.2/config/jvm.options

注意:确保堆内存最小值(Xms)与最大值(Xmx)的大小相同,防止程序在运行时改变堆内存大小。
堆内存大小不要超过系统内存的50%

(4)创建ES数据及日志存储目录

Matlab 复制代码
[root@mes-1 ~]# mkdir -p /data/elasticsearch/data       (/data/elasticsearch)
[root@mes-1 ~]# mkdir -p /data/elasticsearch/logs       (/log/elasticsearch)

(5)修改安装目录及存储目录权限

Matlab 复制代码
[root@mes-1 ~]# chown -R elsearch:elsearch /data/elasticsearch
[root@mes-1 ~]# chown -R elsearch:elsearch /usr/local/elasticsearch-7.13.2

3、系统优化

(1)增加最大文件打开数
Matlab 复制代码
永久生效方法:echo "* - nofile 65536" >> /etc/security/limits.conf
(2)增加最大进程数
Matlab 复制代码
[root@mes-1 ~]# vim /etc/security/limits.conf    ---在文件最后面添加如下内容
* soft nofile 65536
* hard nofile 131072
* soft nproc 2048
* hard nproc 4096
更多的参数调整可以直接用这个
(3)增加最大内存映射数
Matlab 复制代码
[root@mes-1 ~]# vim /etc/sysctl.conf   ---添加如下
vm.max_map_count=262144
vm.swappiness=0
[root@mes-1 ~]# sysctl -p

启动如果报下列错误

Matlab 复制代码
memory locking requested for elasticsearch process but memory is not locked
elasticsearch.yml文件
bootstrap.memory_lock : false
/etc/sysctl.conf文件
vm.swappiness=0
​
错误:
max file descriptors [4096] for elasticsearch process is too low, increase to at least [65536]
意思是elasticsearch用户拥有的客串建文件描述的权限太低,知道需要65536个
解决:
切换到root用户下面,
vim   /etc/security/limits.conf
在最后添加
* hard nofile 65536
* hard nofile 65536
重新启动elasticsearch,还是无效?
必须重新登录启动elasticsearch的账户才可以,例如我的账户名是elasticsearch,退出重新登录。
另外*也可以换为启动elasticsearch的账户也可以,* 代表所有,其实比较不合适
​
启动还会遇到另外一个问题,就是
max virtual memory areas vm.max_map_count [65530] is too low, increase to at least [262144]
意思是:elasticsearch用户拥有的内存权限太小了,至少需要262114。这个比较简单,也不需要重启,直接执行
# sysctl -w vm.max_map_count=262144
就可以了

​4、启动ES

Matlab 复制代码
#如果是集群,三台机器都启动
[root@mes-1 ~]# su - elsearch
Last login: Sat Aug  3 19:48:59 CST 2019 on pts/0
~]$ cd /usr/local/elasticsearch-6.5.4/
elasticsearch-7.13.2]$ ./bin/elasticsearch  #先启动看看报错不,需要多等一会
终止之后
elasticsearch-7.13.2]$ nohup ./bin/elasticsearch &  #放后台启动
[1] 11462
nohup: ignoring input and appending output to 'nohup.out'
[root@mes-1 elasticsearch-6.5.4]$ tail -f nohup.out   #看一下是否启动
或者:
su - elsearch -c "cd /usr/local/elasticsearch-7.13.2 && nohup bin/elasticsearch &"

测试:浏览器访问http://172.16.246.234:9200

Matlab 复制代码
9200与9300端口号的区别
9300端口: ES节点之间通讯使用,是TCP协议端口号,ES集群之间通讯端口号。
9200端口: ES节点和外部通讯使用,暴露接口端口号。浏览器访问时使用

5.安装配置head监控插件(Web前端)

  • 在Elasticsearch中,Head插件是一个用于浏览和管理Elasticsearch集群的Web界面工具。它提供了一个直观的界面,可以用于查看索引、文档、节点以及执行各种操作,例如搜索、聚合和索引管理等。
  • Grunt是一种JavaScript任务运行器,用于自动化构建、编译和部署项目。它可以通过配置文件定义一系列任务,然后通过命令行或其他工具运行这些任务。在Elasticsearch中使用Head插件时,Grunt用于构建和打包Head插件的源代码,以便在浏览器中展示和运行插件。
  • 只需要在一台ES上安装就可以了。这里选择:192.168.246.235
(1)安装node
Matlab 复制代码
[root@es-3-head-kib ~]# wget https://npm.taobao.org/mirrors/node/v14.15.3/node-v14.15.3-linux-x64.tar.gz
~]# tar xzvf node-v14.15.3-linux-x64.tar.gz -C /usr/local/
~]# vim /etc/profile   #添加如下变量
NODE_HOME=/usr/local/node-v14.15.3-linux-x64
PATH=$NODE_HOME/bin:$PATH
export NODE_HOME PATH
~]# source /etc/profile
~]# node --version  #检查node版本号
v14.15.3
(2)下载head插件
Matlab 复制代码
[root@es-3-head-kib ~]# wget https://github.com/mobz/elasticsearch-head/archive/master.zip
[root@es-3-head-kib ~]# unzip -d /usr/local/ master.zip
[root@es-3-head-kib ~]# cd /usr/local
或者
unzip --d /usr/local elasticsearch-head-master.zip
(3)安装grunt
Matlab 复制代码
cd elasticsearch-head-master/
npm config set registry https://registry.npmmirror.com  #更换一个镜像,如果不更换下载会很慢
npm install -g grunt-cli  #时间会很长
grunt --version  #检查grunt版本号
(4)修改head源码
Matlab 复制代码
vim /usr/local/elasticsearch-head-master/Gruntfile.js +95
(第95行左右)

添加hostname,注意在上一行末尾添加逗号,hostname 不需要添加逗号

Matlab 复制代码
 vim /usr/local/elasticsearch-head-master/_site/app.js +4359
(第4359行左右)

如果在一台机器上面可以不修改下面的操作。保持原来的就可以了

如果是集群需要修改如下信息:

原本是http://localhost:9200 ,如果head和ES不在同一个节点,注意修改成ES的IP地址

(5)下载PhantomJS工具

PhantomJS是一个无界面、基于WebKit的可编程脚本工具。它可以用于模拟浏览器环境,执行各种网页操作,例如加载网页、点击按钮、填写表单等。在Elasticsearch的Head插件中,PhantomJS被用于在服务器端渲染Head插件的界面,并生成静态的HTML文件,以便在浏览器中展示和访问。它是Head插件的一个必要文件,用于实现服务器端渲染和静态HTML文件生成的功能。

Matlab 复制代码
[root@es-3-head-kib ~]# wget https://github.com/Medium/phantomjs/releases/download/v2.1.1/phantomjs-2.1.1-linux-x86_64.tar.bz2
[root@es-3-head-kib ~]# yum -y install bzip2
[root@es-3-head-kib ~]# tar -jxf phantomjs-2.1.1-linux-x86_64.tar.bz2 -C /tmp/  
(6)运行head
Matlab 复制代码
[root@es-3-head-kib ~]# cd /usr/local/elasticsearch-head-master/
[root@es-3-head-kib elasticsearch-head-master]# npm config set registry https://registry.npmmirror.com  #先执行这条命令更换一个镜像
[root@es-3-head-kib elasticsearch-head-master]# npm install
...
grunt-contrib-jasmine@1.0.3 node_modules/grunt-contrib-jasmine
├── sprintf-js@1.0.3
├── lodash@2.4.2
├── es5-shim@4.5.13
├── chalk@1.1.3 (escape-string-regexp@1.0.5, supports-color@2.0.0, ansi-styles@2.2.1, strip-ansi@3.0.1, has-ansi@2.0.0)
├── jasmine-core@2.99.1
├── rimraf@2.6.3 (glob@7.1.4)
└── grunt-lib-phantomjs@1.1.0 (eventemitter2@0.4.14, semver@5.7.0, temporary@0.0.8, phan
​如果报错执行:
npm install phantomjs-prebuilt@2.1.16 --ignore-scripts
​
nohup grunt server &  #后台运行grunt
tailf nohup.out       #查看运行情况
(7)测试

访问http://172.16.246.235:9100

分片

Matlab 复制代码
1.在Elasticsearch中,索引被分割成多个分片(shard),每个分片是索引的一个子集,包含了
一部分数据。主分片(Primary Shard)是索引划分的基本单位,它负责存储数据的一部分。
主分片有以下特点:
(1)主分片是索引的核心,它负责处理所有的写入操作。当文档被索引时,它会首先被分配给一
个主分片进行处理。
(2)主分片是索引的最小存储单元,索引中的所有数据都被分配给多个主分片进行存储。默认情
况下,每个索引被划分为5个主分片,但这个数量可以在创建索引时进行配置。
(3)主分片在创建索引时就确定,并且无法修改。这是因为分片的数量直接影响了数据存储和查
询的性能,所以在创建索引时需要根据数据量和查询需求来合理配置主分片的数量。
主分片的作用:
将数据分布在不同节点上,实现数据的分布式存储和处理。通过将索引的数据分散在多个主分片
上,Elasticsearch能够实现数据的并行处理和负载均衡,提高系统的性能和扩展性。
2.复制分片(Replica Shard):主要是进行数据冗余来提高系统的可靠性。
复制分片的数量可以在创建索引时进行配置,并且可以在运行时动态修改。
增加复制分片的数量会提高系统的可靠性和性能,但同时也会增加系统的存储需求和网络带宽
的消耗。因此,在配置复制分片数量时需要权衡可靠性、性能和资源消耗之间的关系。
复制分片作用:
(1)高可用性:如果主分片所在的节点故障,复制分片可以自动接管请求,保证数据的可用性。
(2)并行处理:复制分片可以并行处理读请求,提高读取数据的效率。
(3)扩展性:通过增加复制分片的数量,可以扩展系统的读取能力,提高系统的吞吐量。
3.区别:
主分片只负责处理写入操作,而读取操作涉及到主分片和复制分片(Replica Shard)。
复制分片用于提供数据的冗余备份和读取操作的并行处理,它们是主分片的完整副本,分布在
不同的节点上。

集群状态

Matlab 复制代码
Elasticsearch集群状态主要有以下几种:
1.Green(绿色):表示集群健康状态良好,所有主分片和复制分片都正常分配,集群能够应对任何
故障,能够正常提供读写服务。
2.Yellow(黄色):表示集群健康状态一般,所有主分片都正常分配,但是有一些复制分片还没有
分配到节点上。这通常是因为节点故障或者集群配置不合理导致的。
3.Red(红色):表示集群健康状态差,至少有一个主分片没有被分配到节点上。这通常是因为节点
故障、分片丢失或者集群配置不合理导致的。

2、 Kibana部署

系统类型:Centos7.5

节点IP:192.168.246.235

软件版本:nginx-1.14.2、kibana-6.5.4-linux-x86_64.tar.gz

下载地址:Past Releases of Elastic Stack Software | Elastic

1. 安装配置Kibana

(1)解压安装
Matlab 复制代码
tar zvxf kibana-7.13.2-linux-x86_64.tar.gz -C /usr/local/
(2)配置
Matlab 复制代码
[root@es-3-head-kib ~]# cd /usr/local/kibana-7.13.2-linux-x86_64/config/
[root@es-3-head-kib config]# vim kibana.yml
server.port: 5601
server.host: "192.168.246.235"
elasticsearch.hosts: ["http://192.168.246.234:9200"]
kibana.index: ".kibana"
i18n.locale: "zh-CN"

配置项含义:

Matlab 复制代码
server.port kibana服务端口,默认5601
server.host kibana主机IP地址,默认localhost
elasticsearch.hosts   用来做查询的ES节点的URL,默认http://localhost:9200
kibana.index        kibana在Elasticsearch中使用索引来存储保存
dashboards,默认.kibana
(3)启动
Matlab 复制代码
nohup /usr/local/kibana-7.13.2-linux-x86_64//bin/kibana --allow-root &

2. 安装配置Nginx反向代理

(1)配置YUM源

root@es-3-head-kib \~\]# rpm -ivh [http://nginx.org/packages/centos/7/noarch/RPMS/nginx-release-centos-7-0.el7.ngx.noarch.rpm](http://nginx.org/packages/centos/7/noarch/RPMS/nginx-release-centos-7-0.el7.ngx.noarch.rpm "http://nginx.org/packages/centos/7/noarch/RPMS/nginx-release-centos-7-0.el7.ngx.noarch.rpm") ###### (2)安装 ```Matlab [root@es-3-head-kib ~]# yum install -y nginx 注意:httpd-tools用于生成nginx认证访问的用户密码文件 ``` ###### (3)配置反向代理 ```Matlab [root@es-3-head-kib ~]# cd /etc/nginx/conf.d/ [root@es-3-head-kib conf.d]# cp default.conf nginx.conf [root@es-3-head-kib conf.d]# mv default.conf default.conf.bak [root@es-3-head-kib conf.d]# vim nginx.conf [root@es-3-head-kib conf.d]# cat nginx.conf server { listen 80; server_name 192.168.246.235; ​ #charset koi8-r; ​ # access_log /var/log/nginx/host.access.log main; # access_log off; ​ location / { proxy_pass http://192.168.246.235:5601; proxy_set_header Host $host:5601; proxy_set_header X-Real-IP $remote_addr; proxy_set_header X-Forwarded-For $proxy_add_x_forwarded_for; proxy_set_header Via "nginx"; } ​ location /head/{ proxy_pass http://192.168.246.235:9100; proxy_set_header Host $host:9100; proxy_set_header X-Real-IP $remote_addr; proxy_set_header X-Forwarded-For $proxy_add_x_forwarded_for; proxy_set_header Via "nginx"; } } ``` **(4)配置nginx** ```Matlab 1.将原来的log_format注释掉,添加json格式的配置信息,如下: [root@es-3-head-kib conf.d]# vim /etc/nginx/nginx.conf log_format json '{"@timestamp":"$time_iso8601",' '"@version":"1",' '"client":"$remote_addr",' '"url":"$uri",' '"status":"$status",' '"domain":"$host",' '"host":"$server_addr",' '"size":$body_bytes_sent,' '"responsetime":$request_time,' '"referer": "$http_referer",' '"ua": "$http_user_agent"' '}'; 2.引用定义的json格式的日志: access_log /var/log/nginx/access_json.log json; ``` ![](https://i-blog.csdnimg.cn/direct/a39d1d00430d43f29422000762d707e9.png) ###### (5)启动nginx ```Matlab root@es-3-head-kib ~]# systemctl start nginx ``` 浏览器访问[http://192.168.246.235](http://192.168.246.235 "http://192.168.246.235") 刚开始没有任何数据,会提示你创建新的索引。 ![](https://i-blog.csdnimg.cn/direct/6fff0b86e5744db08e65f86e194c2b07.png) ![](https://i-blog.csdnimg.cn/direct/c3fd36dd37de4e34a638a0f39ca99718.png) ##### 注:清除缓存和缓冲 ```Matlab echo 3 > /proc/sys/vm/drop_caches /proc/sys/vm/drop_caches 文件用于触发内核清除缓存。向该文件写入不同的数值会有不同的效果: 0: 不做任何事情。 1: 清除 pagecache(文件系统缓存)。 2: 清除 dentries 和 inodes 缓存。 3: 清除 pagecache、dentries 和 inodes 缓存。 ``` ### 3、 Logstash部署 ----192.168.246.231 系统类型:Centos7.5 节点IP:192.168.246.231 软件版本:jdk-8u121-linux-x64.tar.gz、logstash-7.13.2.tar.gz #### 安装配置Logstash [下载地址:Logstash 7.13.2 \| Elastic](https://www.elastic.co/cn/downloads/past-releases/logstash-7-13-2 "下载地址:Logstash 7.13.2 | Elastic") Logstash运行同样依赖jdk,本次为节省资源,故将Logstash安装在了kafka244.231节点。 ###### (1)安装 ```Matlab [root@es-2-zk-log ~]# tar xvzf logstash-7.13.2.tar.gz -C /usr/local/ ``` ##### (2)配置 创建目录,我们将所有input、filter、output配置文件全部放到该目录中。 ```Matlab 1.安装nginx: [root@es-2-zk-log ~]# rpm -ivh http://nginx.org/packages/centos/7/noarch/RPMS/nginx-release-centos-7-0.el7.ngx.noarch.rpm [root@es-2-zk-log ~]# yum install -y nginx 将原来的日志格式注释掉定义成json格式: [root@es-2-zk-log conf.d]# vim /etc/nginx/nginx.conf log_format json '{"@timestamp":"$time_iso8601",' '"@version":"1",' '"client":"$remote_addr",' '"url":"$uri",' '"status":"$status",' '"domain":"$host",' '"host":"$server_addr",' '"size":$body_bytes_sent,' '"responsetime":$request_time,' '"referer": "$http_referer",' '"ua": "$http_user_agent"' '}'; 2.引用定义的json格式的日志: access_log /var/log/nginx/access_json.log json; ``` ![](https://i-blog.csdnimg.cn/direct/9830f0efa5454a1285238f6ef0d53d65.png) ```Matlab [root@es-2-zk-log ~]# systemctl start nginx [root@es-2-zk-log ~]# systemctl enable nginx 浏览器多访问几次 [root@es-2-zk-log ~]# mkdir -p /usr/local/logstash-7.13.2/etc/conf.d # 创建配置文件目录 [root@es-2-zk-log ~]# cd /usr/local/logstash-7.13.2/etc/conf.d/ [root@es-2-zk-log conf.d]# vim input.conf #---在下面添加 input{ #让logstash可以读取特定的事件源。 file{ #从文件读取 path => ["/var/log/nginx/access_json.log"] #要输入的文件路径 type => "shopweb" #定义一个类型,通用选项. ​ } }​ [root@es-2-zk-log conf.d]# vim output.conf output{ #输出插件,将事件发送到特定目标 elasticsearch { #输出到es hosts => ["192.168.246.234:9200","192.168.246.231:9200","192.168.246.235:9200"] #指定es服务的ip加端口 index => ["%{type}-%{+YYYY.MM.dd}"] #引用input中的type名称,定义输出的格式 } } 注意:input和output内容也可以放到同一个配置文件中配置! ``` ##### (3)启动 ```Matlab cd /usr/local/logstash-7.13.2/ # 启动 logstash-7.13.2]# nohup bin/logstash -f etc/conf.d/ --config.reload.automatic & # 启动时指定存放的配置文件目录,并自动读取配置文件 ps -ef | grep logstash # 查看是否运行成功 ``` 查看日志出现: ```Matlab [root@es-2-zk-log logstash-7.13.2]# tail -f nohup.out [2019-08-04T01:39:24,671][INFO ][logstash.outputs.elasticsearch] Attempting to install template {:manage_template=>{"template"=>"logstash-*", "version"=>60001, "settings"=>{"index.refresh_interval"=>"5s"}, "mappings"=>{"_default_"=>{"dynamic_templates"=>[{"message_field"=>{"path_match"=>"message", "match_mapping_type"=>"string", "mapping"=>{"type"=>"text", "norms"=>false}}}, {"string_fields"=>{"match"=>"*", "match_mapping_type"=>"string", "mapping"=>{"type"=>"text", "norms"=>false, "fields"=>{"keyword"=>{"type"=>"keyword", "ignore_above"=>256}}}}}], "properties"=>{"@timestamp"=>{"type"=>"date"}, "@version"=>{"type"=>"keyword"}, "geoip"=>{"dynamic"=>true, "properties"=>{"ip"=>{"type"=>"ip"}, "location"=>{"type"=>"geo_point"}, "latitude"=>{"type"=>"half_float"}, "longitude"=>{"type"=>"half_float"}}}}}}}} ``` 在浏览器中访问本机的nginx网站 ![](https://i-blog.csdnimg.cn/direct/e9e5c12e20e94207b207b19a902da69c.png) 配置kia添加索引 ![](https://i-blog.csdnimg.cn/direct/419e08f3505a405e94378ebbb1899230.png) ![](https://i-blog.csdnimg.cn/direct/e18930fb49c4454486bdbdf82fc404ed.png) ![](https://i-blog.csdnimg.cn/direct/54efae6066594fc99e19f970f900d417.png) ![](https://i-blog.csdnimg.cn/direct/53310e3fa86447a68bad5d1d6c6d4699.png) **注意:如果出不来通过界面提示打开时间管理器,设置时间为本星期** 过程: 通过nginx的访问日志获取日志---\>传输到logstach ----传输到--elasticsearch--传输到---kibana (通过nginix反代) 注意:如果出现问题 ![](https://i-blog.csdnimg.cn/direct/4b0680f898104f7e9901fd97fe247413.png) ``` 从上面截图可以看出存在5个unassigned的分片,新建索引blog5的时候,分片数为5,副本数为1,新建之后集群状态成为yellow,其根本原因是因为集群存在没有启用的副本分片,我们先来看一下官网给出的副本分片的介绍: 副本分片的主要目的就是为了故障转移,正如在集群内的原理中讨论的:如果持有主分片的节点挂掉了,一个副本分片就会晋升为主分片的角色。 ​ 那么可以看出来副本分片和主分片是不能放到一个节点上面的,可是在只有一个节点的集群里,副本分片没有办法分配到其他的节点上,所以出现所有副本分片都unassigned得情况。因为只有一个节点,如果存在主分片节点挂掉了,那么整个集群理应就挂掉了,不存在副本分片升为主分片的情况。 ​ 解决办法就是,在单节点的elasticsearch集群,删除存在副本分片的索引,新建索引的副本都设为0。然后再查看集群状态 ``` ![](https://i-blog.csdnimg.cn/direct/8cbf1a3e3f46470e88ce50ed2a4c7328.png) ## Kafka部署 #### Kafka ​ 数据缓冲队列。作为消息队列解耦合处理过程,同时提高了可扩展性。具有峰值处理能力,使用消息队列能够使关键组件顶住突发的访问压力,而不会因为突发的超负荷的请求而完全崩溃。**基于zookeeper协调的分布式消息系统,最大特性是实时处理大量数据以满足各种需求场景,比如基于hadoop的批处理系统、低延迟(毫秒级,不及rabbitmq的微秒级)的实时系统、web/nginx日志、访问日志,消息服务等等**,用scala语言编写,Linkedin于2010年贡献给了Apache基金会并成为顶级开源 项目。 **Kafka的特性:** * 高吞吐量:kafka每秒可以处理几十万条消息。 * 可扩展性:kafka集群支持热扩展 * 可靠性:消息被持久化到本地磁盘,并且支持数据备份防止数据丢失 * 高并发:支持数千个客户端同时读写 它主要包括以下组件 ```Matlab 话题(Topic)是特定类型的消息流(每条发布到kafka集群的消息属于的类别,即kafka是面向 topic 的) 生产者(Producer):发布消息到话题的任何对象(发布消息到 kafka 集群的终端或服务). 消费者(Consumer):可以订阅一个或多个话题,从而消费这些已发布的消息。 服务代理(Broker):已发布的消息保存在一组服务器中,它们被称为代理(Broker)或Kafka集群。 zookeeper:kafka 通过 zookeeper 来存储集群的信息。 ``` #### zookeeper **ZooKeeper是一个分布式协调服务,Kafka的运行依赖ZooKeeper。**ZooKeeper主要用来协调Kafka的各个broker,而且当增加了broker或者某个broker故障了,ZooKeeper将会通知生产者和消费者,这样可以保证整个系统正常运转。在Kafka集群中broker的分布情况与消费者当前消费的状态信息都会保存在ZooKeeper中。Kafka集群会具备高可用(副本功能的实现)。在java微服务框架中dubbo是一个注册中学,用用于检查服务可用性,即健康检查中心 ```Matlab 系统类型:Centos7.5 节点IP:192.168.246.234,192.168.246.231,192.168.246.235 软件版本:jdk-8u121-linux-x64.tar.gz、kafka_2.11-2.1.0.tgz 示例节点:172.16.246.231 ``` ##### 1.安装配置jdk8 Kafka、Zookeeper(简称:ZK)运行依赖jdk8 ```Matlab tar zxvf /usr/local/package/jdk-8u121-linux-x64.tar.gz -C /usr/local/ [root@es-2-zk-log ~]# echo ' JAVA_HOME=/usr/local/jdk1.8.0_121 PATH=$JAVA_HOME/bin:$PATH export JAVA_HOME PATH ' >>/etc/profile [root@es-2-zk-log ~]# source /etc/profile ``` ##### 2.安装配置ZK ```Matlab Kafka运行依赖ZK,Kafka官网提供的tar包中,已经包含了ZK,这里不再额下载ZK程序。 三台机器的配置相互解析 [root@es-2-zk-log ~]# vim /etc/hosts 192.168.246.234 mes-1 192.168.246.231 es-2-zk-log 192.168.246.235 es-3-head-kib ``` ###### (1)安装 ```Matlab [root@es-2-zk-log ~]# tar xzvf kafka_2.11-2.1.0.tgz -C /usr/local/ ``` ###### (2)配置 ```Matlab [root@mes-1 ~]# sed -i 's/^[^#]/#&/' /usr/local/kafka_2.11-2.1.0/config/zookeeper.properties #添加注释 [root@mes-1 ~]# vim /usr/local/kafka_2.11-2.1.0/config/zookeeper.properties #添加如下配置 dataDir=/opt/data/zookeeper/data dataLogDir=/opt/data/zookeeper/logs clientPort=2181 tickTime=2000 initLimit=20 syncLimit=10 server.1=192.168.246.231:2888:3888 //kafka集群IP:Port server.2=192.168.246.234:2888:3888 server.3=192.168.246.235:2888:3888 #创建data、log目录 [root@mes-1 ~]# mkdir -p /opt/data/zookeeper/{data,logs} #创建myid文件 [root@mes-1 ~]# echo 1 > /opt/data/zookeeper/data/myid #myid号按顺序排 ``` ```Matlab [root@es-2-zk-log ~]# sed -i 's/^[^#]/#&/' /usr/local/kafka_2.11-2.1.0/config/zookeeper.properties [root@es-2-zk-log ~]# vim /usr/local/kafka_2.11-2.1.0/config/zookeeper.properties dataDir=/opt/data/zookeeper/data dataLogDir=/opt/data/zookeeper/logs clientPort=2181 tickTime=2000 initLimit=20 syncLimit=10 server.1=192.168.246.231:2888:3888 server.2=192.168.246.234:2888:3888 server.3=192.168.246.235:2888:3888 #创建data、log目录 [root@es-2-zk-log ~]# mkdir -p /opt/data/zookeeper/{data,logs} #创建myid文件 [root@es-2-zk-log ~]# echo 2 > /opt/data/zookeeper/data/myid ``` ```Matlab [root@es-3 ~]# sed -i 's/^[^#]/#&/' /usr/local/kafka_2.11-2.1.0/config/zookeeper.properties [root@es-3-head-kib ~]# vim /usr/local/kafka_2.11-2.1.0/config/zookeeper.properties dataDir=/opt/data/zookeeper/data dataLogDir=/opt/data/zookeeper/logs clientPort=2181 tickTime=2000 initLimit=20 syncLimit=10 server.1=192.168.246.231:2888:3888 server.2=192.168.246.234:2888:3888 server.3=192.168.246.235:2888:3888 #创建data、log目录 [root@es-3-head-kib ~]# mkdir -p /opt/data/zookeeper/{data,logs} #创建myid文件 [root@es-3-head-kib ~]# echo 3 > /opt/data/zookeeper/data/myid ``` 配置项含义: ```Matlab dataDir ZK数据存放目录。 dataLogDir ZK日志存放目录。 clientPort 客户端连接ZK服务的端口。 tickTime ZK服务器之间或客户端与服务器之间维持心跳的时间间隔。 initLimit 初始化连接时间,当初始化连接时间超过该值,则表示连接失败。 syncLimit Leader与Follower之间发送消息时如果follower在设置时间内不能与leader通信,那么此follower将会被丢弃。 server.1=172.16.244.31:2888:3888 2888是集群内机器通讯使用,3888是当leader挂了时用来执行选举时服务器相互通信的端口。 ``` ##### 3.配置Kafka ###### (1)配置 ```Matlab [root@mes-1 ~]# sed -i 's/^[^#]/#&/' /usr/local/kafka_2.11-2.1.0/config/server.properties [root@mes-1 ~]# vim /usr/local/kafka_2.11-2.1.0/config/server.properties #在最后添加 broker.id=1 listeners=PLAINTEXT://192.168.246.231:9092 num.network.threads=3 num.io.threads=8 socket.send.buffer.bytes=102400 socket.receive.buffer.bytes=102400 socket.request.max.bytes=104857600 log.dirs=/opt/data/kafka/logs num.partitions=6 num.recovery.threads.per.data.dir=1 offsets.topic.replication.factor=2 transaction.state.log.replication.factor=1 transaction.state.log.min.isr=1 log.retention.hours=168 log.segment.bytes=536870912 log.retention.check.interval.ms=300000 zookeeper.connect=192.168.246.231:2181,192.168.246.234:2181,192.168.246.235:2181 zookeeper.connection.timeout.ms=6000 group.initial.rebalance.delay.ms=0 [root@mes-1 ~]# mkdir -p /opt/data/kafka/logs ``` ```Matlab [root@es-2-zk-log ~]# sed -i 's/^[^#]/#&/' /usr/local/kafka_2.11-2.1.0/config/server.properties [root@es-2-zk-log ~]# vim /usr/local/kafka_2.11-2.1.0/config/server.properties broker.id=2 listeners=PLAINTEXT://192.168.246.234:9092 num.network.threads=3 num.io.threads=8 socket.send.buffer.bytes=102400 socket.receive.buffer.bytes=102400 socket.request.max.bytes=104857600 log.dirs=/opt/data/kafka/logs num.partitions=6 num.recovery.threads.per.data.dir=1 offsets.topic.replication.factor=2 transaction.state.log.replication.factor=1 transaction.state.log.min.isr=1 log.retention.hours=168 log.segment.bytes=536870912 log.retention.check.interval.ms=300000 zookeeper.connect=192.168.246.231:2181,192.168.246.234:2181,192.168.246.235:2181 zookeeper.connection.timeout.ms=6000 group.initial.rebalance.delay.ms=0 [root@es-2-zk-log ~]# mkdir -p /opt/data/kafka/logs ``` ```Matlab [root@es-3-head-kib ~]# sed -i 's/^[^#]/#&/' /usr/local/kafka_2.11-2.1.0/config/server.properties [root@es-3-head-kib ~]# vim /usr/local/kafka_2.11-2.1.0/config/server.properties broker.id=3 listeners=PLAINTEXT://192.168.246.235:9092 num.network.threads=3 num.io.threads=8 socket.send.buffer.bytes=102400 socket.receive.buffer.bytes=102400 socket.request.max.bytes=104857600 log.dirs=/opt/data/kafka/logs num.partitions=6 num.recovery.threads.per.data.dir=1 offsets.topic.replication.factor=2 transaction.state.log.replication.factor=1 transaction.state.log.min.isr=1 log.retention.hours=168 log.segment.bytes=536870912 log.retention.check.interval.ms=300000 zookeeper.connect=192.168.246.231:2181,192.168.246.234:2181,192.168.246.235:2181 zookeeper.connection.timeout.ms=60000 group.initial.rebalance.delay.ms=0 [root@es-3-head-kib ~]# mkdir -p /opt/data/kafka/logs ``` 配置项含义: ```Matlab broker.id 每个server需要单独配置broker id,如果不配置系统会自动配置。 listeners 监听地址,格式PLAINTEXT://IP:端口。 num.network.threads num.io.threads socket.send.buffer.bytes socket.receive.buffer.bytes socket.request.max.bytes log.dirs 日志文件目录。 num.partitions num.recovery.threads.per.data.dir offsets.topic.replication.factor log.retention.hours log.segment.bytes log.retention.check.interval.ms zookeeper.connect #ZK主机地址,如果zookeeper是集群则以逗号隔开。 zookeeper.connection.timeout.ms #连接到Zookeeper的超时时间。 ``` ###### 4、其他节点配置 只需把配置好的安装包直接分发到其他节点,Kafka的broker.id和listeners就可以了。 ###### 5、启动、验证ZK集群 ###### (1)启动 在三个节点依次执行: ```Matlab [root@mes-1 ~]# cd /usr/local/kafka_2.11-2.1.0/ [root@mes-1 kafka_2.11-2.1.0]# nohup bin/zookeeper-server-start.sh config/zookeeper.properties & ``` ###### (2)验证 查看端口 ```Matlab [root@mes-1 ~]# netstat -lntp | grep 2181 tcp6 0 0 :::2181 :::* LISTEN 1226/java ``` ###### 6、启动、验证Kafka ###### (1)启动 在三个节点依次执行: ```Matlab [root@mes-1 ~]# cd /usr/local/kafka_2.11-2.1.0/ [root@mes-1 kafka_2.11-2.1.0]# nohup bin/kafka-server-start.sh config/server.properties & ``` ###### (2)验证 在192.168.246.231上创建topic ```Matlab [root@es-2-zk-log kafka_2.11-2.1.0]# bin/kafka-topics.sh --create --zookeeper 192.168.246.235:2181 --replication-factor 1 --partitions 1 --topic testtopic Created topic "testtopic". 参数解释: --zookeeper指定zookeeper的地址和端口, --partitions指定partition的数量, --replication-factor指定数据副本的数量 ``` 在246.235上面查询192.168.246.231上的topic ```Matlab [root@es-3-head-kib kafka_2.11-2.1.0]# bin/kafka-topics.sh --zookeeper 192.168.246.231:2181 --list testtopic ``` 模拟消息生产和消费发送消息到192.168.246.231 ```Matlab [root@mes-1 kafka_2.11-2.1.0]# bin/kafka-console-producer.sh --broker-list 192.168.246.231:9092 --topic testtopic >hello ``` 从192.168.246.234接受消息 ```Matlab [root@es-2-zk-log kafka_2.11-2.1.0]# bin/kafka-console-consumer.sh --bootstrap-server 192.168.246.234:9092 --topic testtopic --from-beginning hello kafka没有问题之后,回到logstash服务器: #安装完kafka之后的操作: [root@es-2-zk-log ~]# cd /usr/local/logstash-6.5.4/etc/conf.d/ [root@es-2-zk-log conf.d]# cp input.conf input.conf.bak [root@es-2-zk-log conf.d]# vim input.conf input { kafka { #指定kafka服务 type => "nginx_log" codec => "json" #通用选项,用于输入数据的编解码器 topics => "nginx" #这里定义的topic decorate_events => true #会将当前topic信息也带到message中 bootstrap_servers => "192.168.246.234:9092, 192.168.246.231:9092, 192.168.246.235:9092" } } 启动 logstash [root@es-2-zk-log conf.d]# cd /usr/local/logstash-6.5.4/ [root@es-2-zk-log logstash-6.5.4]# nohup bin/logstash -f etc/conf.d/ --config.reload.automatic & ```

相关推荐
回家路上绕了弯8 小时前
外卖员重复抢单?从技术到运营的全链路解决方案
分布式·后端
忍冬行者9 小时前
Kafka 概念与部署手册
分布式·kafka
深蓝电商API9 小时前
爬虫+Redis:如何实现分布式去重与任务队列?
redis·分布式·爬虫·python
在未来等你10 小时前
Elasticsearch面试精讲 Day 28:版本升级与滚动重启
大数据·分布式·elasticsearch·搜索引擎·面试
AAA小肥杨17 小时前
基于k8s的Python的分布式深度学习训练平台搭建简单实践
人工智能·分布式·python·ai·kubernetes·gpu
爬山算法19 小时前
Redis(73)如何处理Redis分布式锁的死锁问题?
数据库·redis·分布式
yumgpkpm21 小时前
华为鲲鹏 Aarch64 环境下多 Oracle 、mysql数据库汇聚到Cloudera CDP7.3操作指南
大数据·数据库·mysql·华为·oracle·kafka·cloudera
祈祷苍天赐我java之术21 小时前
Redis 数据类型与使用场景
java·开发语言·前端·redis·分布式·spring·bootstrap
猫林老师1 天前
HarmonyOS线程模型与性能优化实战
数据库·分布式·harmonyos
阿里云云原生1 天前
AI 时代的数据通道:云消息队列 Kafka 的演进与实践
云原生·kafka