大数据技术栈全解析

在大数据领域，技术栈涵盖了数据采集、存储、处理、分析、可视化及安全等多个层面。以下是针对面试场景整理的大数据技术栈核心内容，采用分层次结构化呈现，便于记忆与表达：

一、数据采集层

日志采集工具
- Flume：分布式高可靠日志收集系统，支持多源输入（文件、Socket）和多目的地输出（HDFS、Kafka），适合海量日志实时采集。
- Logstash：开源数据管道工具，常与Elasticsearch、Kibana组成"ELK栈"，用于日志分析，支持数据转换与传输。
- Sqoop：用于结构化数据在Hadoop与关系型数据库（如MySQL、Oracle）之间的批量传输，适合数据迁移场景。
消息队列
- Kafka：高吞吐量分布式消息系统，支持发布/订阅模式，适合实时数据传输（如实时计算的数据源），在金融风控、日志处理等场景广泛应用。
- RabbitMQ：轻量级消息队列，支持多种消息协议，适合业务解耦和低延迟场景，但吞吐量低于Kafka。

二、数据存储层

分布式文件系统
- HDFS：Hadoop核心存储系统，采用"NameNode+DataNode"架构，通过副本机制保证可靠性，适合存储海量大文件（如日志、视频）。
- S3：亚马逊对象存储服务，弹性强、适合云环境，常作为数据湖的存储基础设施。
数据库
- HBase：基于HDFS的分布式列式存储数据库，支持海量小数据随机读写，适合用户行为记录等场景。
- MongoDB：文档型数据库，适合存储JSON格式半结构化数据（如电商商品详情），查询灵活但事务支持较弱。
- Redis：内存数据库，支持键值对、哈希等结构，适合缓存高频访问数据（如热点商品）和实时计数（如秒杀库存）。
数据仓库
- Hive：基于HDFS的数据仓库工具，通过类SQL（HQL）将查询转换为MapReduce任务，适合离线批量数据分析，但延迟较高。
- ClickHouse：列式存储开源数据仓库，支持高吞吐写入和亚秒级查询，适合实时分析（如用户行为实时报表）。
- Snowflake：云原生数据仓库，支持弹性扩展和多集群并发，适合多云环境下的数据集成。

三、数据处理层

离线批处理
- MapReduce：Hadoop核心计算框架，将任务分解为"Map"和"Reduce"阶段，适合大规模离线数据处理（如日志清洗、数据聚合），但基于磁盘计算，效率较低。
- Spark：基于内存的分布式计算框架，支持批处理、SQL查询（Spark SQL）、机器学习（MLlib）和图计算（GraphX），计算速度比MapReduce快10-100倍，是当前离线批处理的主流工具。
实时流处理
- Flink：分布式流处理框架，支持"事件时间"语义和状态管理，可处理无界流（如实时日志）和有界流（如批数据），延迟可达毫秒级，适合实时风控、实时推荐等核心场景。
- Spark Streaming：基于Spark的微批处理框架，将流数据拆分为小批次处理，延迟高于Flink（秒级），但与Spark生态集成紧密，适合对实时性要求不极致的场景（如准实时报表）。
- Storm：早期流处理框架，基于tuple级别实时处理，延迟可达毫秒级，但吞吐量较低，适合简单实时计算任务（如实时计数、过滤）。
交互式查询
- Presto：分布式SQL查询引擎，支持跨数据源查询（Hive、MySQL、MongoDB等），无需将数据移动到统一存储，适合交互式分析（如业务人员即时查询"近7天活跃用户数"），延迟低于Hive。
- Impala：Cloudera推出的交互式查询引擎，与Hive共享元数据，支持实时查询HDFS/HBase中的数据，性能接近Presto，适合数据仓库的交互式分析。

四、数据分析与服务层

SQL引擎
- Hive SQL：通过HQL查询Hive中的数据，适合离线分析。
- Spark SQL：在Spark中支持SQL查询，可直接操作Hive、Parquet等数据源，兼顾批处理和交互式查询。
搜索引擎
- Elasticsearch：基于Lucene的分布式搜索引擎，支持全文检索和聚合分析，常与Logstash、Kibana组成"ELK栈"，用于日志检索和实时监控。
机器学习与数据挖掘
- Spark MLlib：Spark的机器学习库，提供分类、回归、聚类等算法，适合大规模数据的离线模型训练。
- TensorFlow/PyTorch：主流深度学习框架，可结合大数据平台处理海量训练数据（如通过Spark读取数据并输入模型）。
- Flink ML：Flink的机器学习库，支持流数据的在线模型训练和预测。

五、数据可视化与调度层

可视化工具
- Tableau：拖拽式可视化工具，支持连接多种数据源，适合业务人员快速制作报表。
- Power BI：微软的可视化工具，与Excel、Azure生态集成，适合企业级数据分析。
- Qlik：自助式数据分析和可视化工具，具有可视化仪表板，可简化数据分析，并帮助公司快速制定业务决策。
任务调度
- Airflow：开源工作流调度工具，定时运行数据任务（如每天早上6点运行数据清洗、处理、生成报表的任务），支持复杂任务依赖管理。
- YARN：Hadoop的资源管理器，负责集群资源分配和任务调度，支持MapReduce、Spark等计算框架运行。