大数据（非结构化数据，Spark，MongoDB）

文章目录

- 一、什么是大数据
- 二、详解大数据技术栈
- - [第 1 层：数据来源 (非结构化数据)](#第 1 层：数据来源 (非结构化数据))
  - [第 2 层：数据获取与存储 (Kafka，HDFS，NoSQL)](#第 2 层：数据获取与存储 (Kafka，HDFS，NoSQL))
  - [第 3 层：数据处理与分析 (Spark，Spark Streaming)](#第 3 层：数据处理与分析 (Spark，Spark Streaming))
  - [第 4 层：数据服务与可视化 (Hive，Spark SQL)](#第 4 层：数据服务与可视化 (Hive，Spark SQL))
  - [第 5 层：应用（推荐系统）](#第 5 层：应用（推荐系统）)
- 三、大数据的内容（结构化/半结构化/非结构化数据）
- 总结

一、什么是大数据

大数据（Big Data）指的是在规模（Volume）、速度（Velocity）、多样性（Variety）上超出传统数据处理软件（如关系型数据库）处理能力的巨量数据集合。为了更全面地定义，后来又增加了价值密度低（Value）和真实性（Veracity）两个特征，合称为大数据的 5V 特性。

简单来说，大数据不是关于"数据有多大"，而是关于"如何处理巨大的、复杂的数据集并从中提取价值"的一整套技术、方法和思维模式。

二、详解大数据技术栈

下图清晰地展示了大数据技术的典型分层架构，从下到上，体现了数据处理的完整生命周期：
行业应用层推荐系统、用户画像、风险控制等数据服务与可视化层数据查询与服务
(Hive, Spark SQL, 数据API) 可视化与BI工具
(Tableau, FineBI, Grafana) 数据处理与分析层批处理
(Hadoop MapReduce, Spark) 流处理
(Spark Streaming, Flink) 数据挖掘与机器学习
(MLlib, TensorFlow) 数据获取与存储层数据抽取工具
(Sqoop, Flume, Kafka) 分布式存储
(HDFS, NoSQL, 云存储) 数据来源层结构化数据
(数据库、ERP) 半结构化数据
(日志、XML/JSON) 非结构化数据
(社交媒体、视频、图片)

第 1 层：数据来源 (非结构化数据)

这一层代表了数据的来源，即"海量数据从何而来"。图示中通常会列出多种数据源：

结构化数据：如来自传统关系型数据库（MySQL, Oracle）、企业ERP/CRM系统的表格数据。
半结构化数据：如服务器日志（Log Files）、XML、JSON文件。
非结构化数据 ：这是大数据的主要来源，占大数据的80%，包括社交媒体（微博、微信）、视频、图片、音频、电子邮件、物联网(IoT)传感器数据等。

第 2 层：数据获取与存储 (Kafka，HDFS，NoSQL)

这一层解决"如何把海量数据可靠地收集和存储起来"的问题。

数据采集/集成 ：使用特定工具将不同来源的数据"搬"到存储系统中。
- Sqoop：用于在HDFS和传统数据库间传输数据。
- Flume：一个高可用的分布式日志采集系统。
- Kafka：一种高吞吐量的分布式消息队列，既能采集数据，也能作为实时数据流的缓冲。
数据存储 ：核心是分布式文件系统 和分布式数据库 ，它们能将数据分散存储到成千上万台普通服务器上，实现 scale-out（横向扩展）。
- HDFS (Hadoop Distributed File System)：Hadoop的分布式文件系统，是大量其他大数据技术的基础存储。
- NoSQL 数据库 ：如 HBase （基于HDFS的列式数据库）、Cassandra 、MongoDB 等，用于处理非结构化 和半结构化数据，提供高并发读写能力。
- 云存储：如AWS S3, Azure Blob Storage等，也成为主流的大数据存储方案。

第 3 层：数据处理与分析 (Spark，Spark Streaming)

这是大数据的核心，解决"如何从海量数据中计算和分析出有价值的信息"的问题。主要分为三种模式：

批处理 (Batch Processing) ：对静态的、海量的数据进行处理，通常耗时较长。
- Hadoop MapReduce：最早的分布式批处理模型，将计算任务拆分(Map)再汇总(Reduce)，但速度较慢。
- Spark ：现代大数据处理的绝对主力 。它使用内存计算，速度比MapReduce快多个数量级。其核心抽象是RDD（弹性分布式数据集）。
流处理 (Stream Processing) ：对连续产生的、高速的数据流进行实时或近实时处理。
- Spark Streaming：将流数据切成小批（micro-batches）进行处理。
- Flink：真正的逐事件处理引擎，延迟极低，在实时处理领域势头强劲。
- Storm：早期的流处理框架。
数据挖掘与机器学习 (Data Mining & Machine Learning)
- 这不是一个独立的系统，而是建立在批处理和流处理之上的高级分析能力。
- MLlib：Spark的机器学习库。
- TensorFlow, PyTorch：深度学习框架，也常与大数据平台集成处理海量数据。

第 4 层：数据服务与可视化 (Hive，Spark SQL)

这一层解决"如何将分析结果呈现给最终用户（决策者、业务人员、客户）"的问题。

数据查询与服务 ：
- Hive：可以将结构化的数据文件映射为一张数据库表，并提供类SQL（HiveQL）查询功能，降低使用门槛。
- Spark SQL：允许在Spark中使用SQL来查询数据。
- 数据API：将分析结果以API接口的形式提供服务，供其他应用程序调用。
数据可视化与BI工具：
- Tableau, FineBI, Power BIv：等工具可以轻松地连接数据处理平台，将结果转化为直观的图表、仪表盘(Dashboard) 和报表。
- Grafana：常用于监控指标的实时可视化。

第 5 层：应用（推荐系统）

最顶层是大数据的价值体现，即"用分析结果来做什么"。

推荐系统：电商（淘宝）、视频（Netflix、抖音）的个性化推荐。
用户画像与精准营销：分析用户行为，进行广告投放和营销活动。
风险控制：金融领域识别欺诈交易。
预测性维护：工业领域预测设备故障。
智慧城市：交通流量预测、公共安全分析等。

三、大数据的内容（结构化/半结构化/非结构化数据）

大数据处理的内容极其广泛，主要包括：

结构化数据：有固定模式和格式的数据，如数据库表格。
半结构化数据：虽有结构但不固定，如JSON、XML、日志文件。
非结构化数据：占大数据的80%以上，无固定格式，如文本、邮件、视频、图片、音频、社交媒体内容、传感器数据等。

总结

大数据是一个综合性的领域，它不是单一的技术，而是一个庞大的技术生态系统。其核心思想是：

存储：用分布式文件系统（如HDFS）和数据库（如NoSQL）来存得住海量数据。
计算：用分布式计算框架（如Spark, Flink）来算得快（批处理、流处理）。
分析：用高级算法（如机器学习）来挖得深，发现数据背后的规律和价值。
呈现：用可视化工具（如Tableau）来看得清，让数据说话，指导决策。

图示的价值就在于将这套复杂的技术体系分层解耦，让我们能清晰地看到数据如何从原始形态一步步转化为有价值的见解，并最终驱动各行各业的智能应用。