大数据(非结构化数据,Spark,MongoDB)

文章目录

    • 一、什么是大数据
    • 二、详解大数据技术栈
      • [第 1 层:数据来源 (非结构化数据)](#第 1 层:数据来源 (非结构化数据))
      • [第 2 层:数据获取与存储 (Kafka,HDFS,NoSQL)](#第 2 层:数据获取与存储 (Kafka,HDFS,NoSQL))
      • [第 3 层:数据处理与分析 (Spark,Spark Streaming)](#第 3 层:数据处理与分析 (Spark,Spark Streaming))
      • [第 4 层:数据服务与可视化 (Hive,Spark SQL)](#第 4 层:数据服务与可视化 (Hive,Spark SQL))
      • [第 5 层:应用(推荐系统)](#第 5 层:应用(推荐系统))
    • 三、大数据的内容(结构化/半结构化/非结构化数据)
    • 总结

一、什么是大数据

大数据(Big Data)指的是在规模(Volume)、速度(Velocity)、多样性(Variety) 上超出传统数据处理软件(如关系型数据库)处理能力的巨量数据集合。为了更全面地定义,后来又增加了 价值密度低(Value) 和 真实性(Veracity) 两个特征,合称为大数据的 5V 特性。

简单来说,大数据不是关于"数据有多大",而是关于"如何处理巨大的、复杂的数据集并从中提取价值"的一整套技术、方法和思维模式。

二、详解大数据技术栈

下图清晰地展示了大数据技术的典型分层架构,从下到上,体现了数据处理的完整生命周期:
行业应用层 推荐系统、用户画像、风险控制等 数据服务与可视化层 数据查询与服务
(Hive, Spark SQL, 数据API) 可视化与BI工具
(Tableau, FineBI, Grafana) 数据处理与分析层 批处理
(Hadoop MapReduce, Spark) 流处理
(Spark Streaming, Flink) 数据挖掘与机器学习
(MLlib, TensorFlow) 数据获取与存储层 数据抽取工具
(Sqoop, Flume, Kafka) 分布式存储
(HDFS, NoSQL, 云存储) 数据来源层 结构化数据
(数据库、ERP) 半结构化数据
(日志、XML/JSON) 非结构化数据
(社交媒体、视频、图片)

第 1 层:数据来源 (非结构化数据)

这一层代表了数据的来源,即"海量数据从何而来"。图示中通常会列出多种数据源:

  • 结构化数据:如来自传统关系型数据库(MySQL, Oracle)、企业ERP/CRM系统的表格数据。
  • 半结构化数据:如服务器日志(Log Files)、XML、JSON文件。
  • 非结构化数据 :这是大数据的主要来源,占大数据的80%,包括社交媒体(微博、微信)、视频、图片、音频、电子邮件、物联网(IoT)传感器数据等。

第 2 层:数据获取与存储 (Kafka,HDFS,NoSQL)

这一层解决"如何把海量数据可靠地收集和存储起来"的问题。

  • 数据采集/集成 :使用特定工具将不同来源的数据"搬"到存储系统中。
    • Sqoop:用于在HDFS和传统数据库间传输数据。
    • Flume:一个高可用的分布式日志采集系统。
    • Kafka:一种高吞吐量的分布式消息队列,既能采集数据,也能作为实时数据流的缓冲。
  • 数据存储 :核心是分布式文件系统分布式数据库 ,它们能将数据分散存储到成千上万台普通服务器上,实现 scale-out(横向扩展)。
    • HDFS (Hadoop Distributed File System):Hadoop的分布式文件系统,是大量其他大数据技术的基础存储。
    • NoSQL 数据库 :如 HBase (基于HDFS的列式数据库)、CassandraMongoDB 等,用于处理非结构化半结构化数据,提供高并发读写能力。
    • 云存储:如AWS S3, Azure Blob Storage等,也成为主流的大数据存储方案。

第 3 层:数据处理与分析 (Spark,Spark Streaming)

这是大数据的核心,解决"如何从海量数据中计算和分析出有价值的信息"的问题。主要分为三种模式:

  • 批处理 (Batch Processing) :对静态的、海量的数据进行处理,通常耗时较长。
    • Hadoop MapReduce:最早的分布式批处理模型,将计算任务拆分(Map)再汇总(Reduce),但速度较慢。
    • Spark现代大数据处理的绝对主力 。它使用内存计算,速度比MapReduce快多个数量级。其核心抽象是RDD(弹性分布式数据集)。
  • 流处理 (Stream Processing) :对连续产生的、高速的数据流进行实时或近实时处理。
    • Spark Streaming:将流数据切成小批(micro-batches)进行处理。
    • Flink:真正的逐事件处理引擎,延迟极低,在实时处理领域势头强劲。
    • Storm:早期的流处理框架。
  • 数据挖掘与机器学习 (Data Mining & Machine Learning)
    • 这不是一个独立的系统,而是建立在批处理和流处理之上的高级分析能力。
    • MLlib:Spark的机器学习库。
    • TensorFlow, PyTorch:深度学习框架,也常与大数据平台集成处理海量数据。

第 4 层:数据服务与可视化 (Hive,Spark SQL)

这一层解决"如何将分析结果呈现给最终用户(决策者、业务人员、客户)"的问题。

  • 数据查询与服务
    • Hive:可以将结构化的数据文件映射为一张数据库表,并提供类SQL(HiveQL)查询功能,降低使用门槛。
    • Spark SQL:允许在Spark中使用SQL来查询数据。
    • 数据API:将分析结果以API接口的形式提供服务,供其他应用程序调用。
  • 数据可视化与BI工具:
    • Tableau, FineBI, Power BIv:等工具可以轻松地连接数据处理平台,将结果转化为直观的图表、仪表盘(Dashboard) 和报表。
    • Grafana:常用于监控指标的实时可视化。

第 5 层:应用(推荐系统)

最顶层是大数据的价值体现,即"用分析结果来做什么"。

  • 推荐系统:电商(淘宝)、视频(Netflix、抖音)的个性化推荐。
  • 用户画像与精准营销:分析用户行为,进行广告投放和营销活动。
  • 风险控制:金融领域识别欺诈交易。
  • 预测性维护:工业领域预测设备故障。
  • 智慧城市:交通流量预测、公共安全分析等。

三、大数据的内容(结构化/半结构化/非结构化数据)

大数据处理的内容极其广泛,主要包括:

  1. 结构化数据:有固定模式和格式的数据,如数据库表格。
  2. 半结构化数据:虽有结构但不固定,如JSON、XML、日志文件。
  3. 非结构化数据:占大数据的80%以上,无固定格式,如文本、邮件、视频、图片、音频、社交媒体内容、传感器数据等。

总结

大数据是一个综合性的领域,它不是单一的技术,而是一个庞大的技术生态系统。其核心思想是:

  • 存储:用分布式文件系统(如HDFS)和数据库(如NoSQL)来存得住海量数据。
  • 计算:用分布式计算框架(如Spark, Flink)来算得快(批处理、流处理)。
  • 分析:用高级算法(如机器学习)来挖得深,发现数据背后的规律和价值。
  • 呈现:用可视化工具(如Tableau)来看得清,让数据说话,指导决策。

图示的价值就在于将这套复杂的技术体系分层解耦,让我们能清晰地看到数据如何从原始形态一步步转化为有价值的见解,并最终驱动各行各业的智能应用。

相关推荐
jikemaoshiyanshi4 分钟前
B2B企业GEO服务商哪家好?深度解析径硕科技(JINGdigital)及其JINGEO产品为何是首选
大数据·运维·人工智能·科技
Elastic 中国社区官方博客20 分钟前
使用 Jina-VLM 小型多语言视觉语言模型来和图片对话
大数据·人工智能·elasticsearch·语言模型·自然语言处理·jina
IvanCodes22 分钟前
Zookeeper & Hbase安装教程
大数据·zookeeper·hbase
志栋智能23 分钟前
超自动化巡检:实现运维“事前预防”的关键拼图
大数据·运维·网络·人工智能·机器学习·自动化
仗剑_走天涯34 分钟前
hadoop reduce阶段 对象重用问题
大数据·hadoop·分布式
拾光向日葵42 分钟前
2026考研:南京林业大学接受理学调剂的专业有哪些
大数据·人工智能·物联网
XM_jhxx1 小时前
从“自动化”到“自主化”:工业AI正在改变什么?
大数据·人工智能
DeepSCRM2 小时前
跨境 SaaS 架构深度解析:如何利用浏览器指纹隔离与 AI 矩阵重构海外私域流量池?
大数据·人工智能·重构
常宇杏起2 小时前
AI安全基础:AI模型安全的核心保护要点
大数据·人工智能·安全
dinl_vin2 小时前
Flink 实时计算引擎深度解析
大数据·flink