一,日志处理方案
方案一,【EFK】:Elasticsearch + Fluentd(或Filebeat) + Kibana
Elasticsearch(简称:ES):实时,分布式存储,可扩展,日志分析工具。
Fluentd/Filebeat:日志数据收集。Filebeat更轻量级。
Kibana:数据可视化(UI界面)
方案二,【ELK】:Elasticsearch + Logstash + Kibana
Logstash:日志收集,聚合,处理。损耗性能,但可处理多种格式的日志。
流程:app应用程序 --> Logstash --> ElasticSearch--> Kibana --> 浏览器
考虑到聚合端(日志处理、清洗等)负载问题和采集端传输效率,一般在日志量比较大的时候在采集端和聚合端增加队列,以用来实现日志消峰。
方案三,【ELK】 + Filebeat
流程:**Filebeat (采集) ---> Logstash(聚合、处理) ---> ElasticSearch (存储) --->Kibana (展示) **
方案四,Filebeat + ElasticSearch +Kibana
**Filebeat (采集、处理) ---> ElasticSearch(存储) --->Kibana (展示) **
方案五,加入缓存机制(推荐)
**Filebeat (采集) ---> Kafka/Redis(消峰) ---> Logstash (聚合、处理) ---> ElasticSearch (存储) --->Kibana (展示) **
日志处理有延迟,产生阻塞,添加 Kafka/Redis 缓存。
二,重点组件介绍
(1)Filebeat组件
1,Filebeat家族
Filebeat是Beats中的一员。
Beats包含六种工具:
1、Packetbeat:网络数据(收集网络流量数据)
2、Metricbeat:指标(收集系统、进程和文件系统级别的CPU和内存使用情况等数据)
3、Filebeat:日志文件(收集文件数据)
4、Winlogbeat:windows事件日志(收集Windows事件日志数据)
5、Auditbeat:审计数据(收集审计日志)
6、Heartbeat:运行时间监控(收集系统运行时的数据)
2,Filebeat传输方案
2-1 output.elasticsearch
bash
output.elasticsearch:
hosts: ["192.168.40.180:9200"]
2-2 output.logstash
bash
output.logstash:
hosts: ["192.168.40.180:5044"]
2-3 output.kafka
bash
output.kafka: # 引入kafka缓存
enabled: true
hosts: ["192.168.40.180:9092"]
topic: elfk8stest
(2)Logstash组件
1,介绍
Logstash 是一个应用程序日志、事件的传输、处理、管理和搜索的平台。它可以对应用程序日志进行收集管理,提供 Web 接口用于查询和统计。
Logstash 能够动态地转换和解析数据,不受格式或复杂度的影响:
1、利用 Grok 从非结构化数据中派生出结构
2、从 IP 地址破译出地理坐标
3、将 PII 数据匿名化,完全排除敏感字段
4、整体处理不受数据源、格式或架构的影响
Logstash 事件处理的三个阶段:输入 > 过滤器 > 输出
2,组件
- 输入(Input):采集各种样式、大小和来源的数据(必要元素)
- 过滤器(filter):实时解析和转换数据(可选元素)
- 输出(output):选择你的存储,导出你的数据(必要元素)
常用的Input模块:Logstash ,file,syslog,redis,beats
常用的Filter模块:grok(非结构转结构数据),mutate,drop,clone,geoip(添加IP地址地理信息)
常用的Output模块:elasticsearch,file,graphite,statsd
3,常用code插件
json:以JSON格式对数据进行编码或解码。
multiline:将多行文本事件(如java异常和堆栈跟踪消息)合并为单个事件。
yaml
input {
kafka {
bootstrap_servers => "192.168.40.180:9092"
auto_offset_reset => "latest"
consumer_threads => 5
decorate_events => true
topics => ["elktest"]
}
}
output {
elasticsearch {
hosts => ["192.168.40.180:9200"]
index => "elkk8stest-%{+YYYY.MM.dd}"
}
}
(3)Fluentd组件
1,介绍
Fluentd是一个针对日志的收集、处理、转发系统。通过丰富的插件系统,可以收集来自于各种系统或应用的日志,转化为用户指定的格式后,转发到用户所指定的日志存储系统之中。
(4)Logagent组件
Logagent 是 Sematext 提供的传输工具,它用来将日志传输到 Logsene(一个基于 SaaS 平台的 Elasticsearch API),因为 Logsene 会暴露 Elasticsearch API,所以 Logagent 可以很容易将数据推送到 Elasticsearch 。
三,各日志采集工具对比
名称 | 优点 | 缺点 |
---|---|---|
Filebeat | 无依赖,占用资源少,5.x 版本具备过滤能力 | 应用范围有限 |
Logstash | 灵活,插件多 | 资源消耗(默认的堆大小是1GB),不支持缓存 |
Fluentd | 插件多 | 数据结构化强,不灵活 |
Logagent | 轻量又快速,有本地缓冲,可掩盖敏感数据信息 | 没有 Logstash 灵活 |
Logtail | 阿里云开发使用,占用机器cpu、内存资源最少 | 类型解析弱 |
Rsyslog | 传输快,最轻的解析器 | 配置难,相关资料少,会有bug |
重点:Filebeat、Fluentd、Logstash