大数据(非结构化数据,Spark,MongoDB)

文章目录

    • 一、什么是大数据
    • 二、详解大数据技术栈
      • [第 1 层:数据来源 (非结构化数据)](#第 1 层:数据来源 (非结构化数据))
      • [第 2 层:数据获取与存储 (Kafka,HDFS,NoSQL)](#第 2 层:数据获取与存储 (Kafka,HDFS,NoSQL))
      • [第 3 层:数据处理与分析 (Spark,Spark Streaming)](#第 3 层:数据处理与分析 (Spark,Spark Streaming))
      • [第 4 层:数据服务与可视化 (Hive,Spark SQL)](#第 4 层:数据服务与可视化 (Hive,Spark SQL))
      • [第 5 层:应用(推荐系统)](#第 5 层:应用(推荐系统))
    • 三、大数据的内容(结构化/半结构化/非结构化数据)
    • 总结

一、什么是大数据

大数据(Big Data)指的是在规模(Volume)、速度(Velocity)、多样性(Variety) 上超出传统数据处理软件(如关系型数据库)处理能力的巨量数据集合。为了更全面地定义,后来又增加了 价值密度低(Value) 和 真实性(Veracity) 两个特征,合称为大数据的 5V 特性。

简单来说,大数据不是关于"数据有多大",而是关于"如何处理巨大的、复杂的数据集并从中提取价值"的一整套技术、方法和思维模式。

二、详解大数据技术栈

下图清晰地展示了大数据技术的典型分层架构,从下到上,体现了数据处理的完整生命周期:
行业应用层 推荐系统、用户画像、风险控制等 数据服务与可视化层 数据查询与服务
(Hive, Spark SQL, 数据API) 可视化与BI工具
(Tableau, FineBI, Grafana) 数据处理与分析层 批处理
(Hadoop MapReduce, Spark) 流处理
(Spark Streaming, Flink) 数据挖掘与机器学习
(MLlib, TensorFlow) 数据获取与存储层 数据抽取工具
(Sqoop, Flume, Kafka) 分布式存储
(HDFS, NoSQL, 云存储) 数据来源层 结构化数据
(数据库、ERP) 半结构化数据
(日志、XML/JSON) 非结构化数据
(社交媒体、视频、图片)

第 1 层:数据来源 (非结构化数据)

这一层代表了数据的来源,即"海量数据从何而来"。图示中通常会列出多种数据源:

  • 结构化数据:如来自传统关系型数据库(MySQL, Oracle)、企业ERP/CRM系统的表格数据。
  • 半结构化数据:如服务器日志(Log Files)、XML、JSON文件。
  • 非结构化数据 :这是大数据的主要来源,占大数据的80%,包括社交媒体(微博、微信)、视频、图片、音频、电子邮件、物联网(IoT)传感器数据等。

第 2 层:数据获取与存储 (Kafka,HDFS,NoSQL)

这一层解决"如何把海量数据可靠地收集和存储起来"的问题。

  • 数据采集/集成 :使用特定工具将不同来源的数据"搬"到存储系统中。
    • Sqoop:用于在HDFS和传统数据库间传输数据。
    • Flume:一个高可用的分布式日志采集系统。
    • Kafka:一种高吞吐量的分布式消息队列,既能采集数据,也能作为实时数据流的缓冲。
  • 数据存储 :核心是分布式文件系统分布式数据库 ,它们能将数据分散存储到成千上万台普通服务器上,实现 scale-out(横向扩展)。
    • HDFS (Hadoop Distributed File System):Hadoop的分布式文件系统,是大量其他大数据技术的基础存储。
    • NoSQL 数据库 :如 HBase (基于HDFS的列式数据库)、CassandraMongoDB 等,用于处理非结构化半结构化数据,提供高并发读写能力。
    • 云存储:如AWS S3, Azure Blob Storage等,也成为主流的大数据存储方案。

第 3 层:数据处理与分析 (Spark,Spark Streaming)

这是大数据的核心,解决"如何从海量数据中计算和分析出有价值的信息"的问题。主要分为三种模式:

  • 批处理 (Batch Processing) :对静态的、海量的数据进行处理,通常耗时较长。
    • Hadoop MapReduce:最早的分布式批处理模型,将计算任务拆分(Map)再汇总(Reduce),但速度较慢。
    • Spark现代大数据处理的绝对主力 。它使用内存计算,速度比MapReduce快多个数量级。其核心抽象是RDD(弹性分布式数据集)。
  • 流处理 (Stream Processing) :对连续产生的、高速的数据流进行实时或近实时处理。
    • Spark Streaming:将流数据切成小批(micro-batches)进行处理。
    • Flink:真正的逐事件处理引擎,延迟极低,在实时处理领域势头强劲。
    • Storm:早期的流处理框架。
  • 数据挖掘与机器学习 (Data Mining & Machine Learning)
    • 这不是一个独立的系统,而是建立在批处理和流处理之上的高级分析能力。
    • MLlib:Spark的机器学习库。
    • TensorFlow, PyTorch:深度学习框架,也常与大数据平台集成处理海量数据。

第 4 层:数据服务与可视化 (Hive,Spark SQL)

这一层解决"如何将分析结果呈现给最终用户(决策者、业务人员、客户)"的问题。

  • 数据查询与服务
    • Hive:可以将结构化的数据文件映射为一张数据库表,并提供类SQL(HiveQL)查询功能,降低使用门槛。
    • Spark SQL:允许在Spark中使用SQL来查询数据。
    • 数据API:将分析结果以API接口的形式提供服务,供其他应用程序调用。
  • 数据可视化与BI工具:
    • Tableau, FineBI, Power BIv:等工具可以轻松地连接数据处理平台,将结果转化为直观的图表、仪表盘(Dashboard) 和报表。
    • Grafana:常用于监控指标的实时可视化。

第 5 层:应用(推荐系统)

最顶层是大数据的价值体现,即"用分析结果来做什么"。

  • 推荐系统:电商(淘宝)、视频(Netflix、抖音)的个性化推荐。
  • 用户画像与精准营销:分析用户行为,进行广告投放和营销活动。
  • 风险控制:金融领域识别欺诈交易。
  • 预测性维护:工业领域预测设备故障。
  • 智慧城市:交通流量预测、公共安全分析等。

三、大数据的内容(结构化/半结构化/非结构化数据)

大数据处理的内容极其广泛,主要包括:

  1. 结构化数据:有固定模式和格式的数据,如数据库表格。
  2. 半结构化数据:虽有结构但不固定,如JSON、XML、日志文件。
  3. 非结构化数据:占大数据的80%以上,无固定格式,如文本、邮件、视频、图片、音频、社交媒体内容、传感器数据等。

总结

大数据是一个综合性的领域,它不是单一的技术,而是一个庞大的技术生态系统。其核心思想是:

  • 存储:用分布式文件系统(如HDFS)和数据库(如NoSQL)来存得住海量数据。
  • 计算:用分布式计算框架(如Spark, Flink)来算得快(批处理、流处理)。
  • 分析:用高级算法(如机器学习)来挖得深,发现数据背后的规律和价值。
  • 呈现:用可视化工具(如Tableau)来看得清,让数据说话,指导决策。

图示的价值就在于将这套复杂的技术体系分层解耦,让我们能清晰地看到数据如何从原始形态一步步转化为有价值的见解,并最终驱动各行各业的智能应用。

相关推荐
数智化精益手记局19 分钟前
拆解物料管理erp系统的核心功能,看物料管理erp系统如何解决库存积压与缺料难题
大数据·网络·人工智能·安全·信息可视化·精益工程
Elastic 中国社区官方博客2 小时前
使用 Observability Migration Platform 将 Datadog 和 Grafana 的仪表板与告警迁移到 Kibana
大数据·elasticsearch·搜索引擎·信息可视化·全文检索·grafana·datalog
jkyy20142 小时前
AI运动数字化:以技术重塑场景,健康有益赋能全域运动健康管理
大数据·人工智能·健康医疗
金融小师妹2 小时前
4月30日多因子共振节点:鲍威尔“收官效应”与权力结构重塑的预期重构
大数据·人工智能·重构·逻辑回归
2601_949925182 小时前
AI Agent如何重构跨境物流的决策?
大数据·人工智能·重构·ai agent·geo优化·物流科技
xiaoduo AI3 小时前
客服机器人问题解决率怎么统计?Agent系统自动判断是否解决,比人工回访准?
大数据·人工智能·机器人
小五兄弟4 小时前
YouTube 肖像检测扩展背后:短剧出海版权保护的技术实现与实战策略
大数据·人工智能
阿瑞说项目管理5 小时前
2026 实战入门指南:企业 Agent 到底能解决哪些工作问题?
大数据·人工智能·agent·智能体·企业级ai
ZOOOOOOU5 小时前
云边端协同架构下,门禁权限引擎的离线决策与策略续存实现
大数据·人工智能·架构
189228048615 小时前
EMMC32G-TA28闪存EMMCH26M78103CCR
大数据·人工智能·缓存