大数据概论总结

三次信息化浪潮 :

信息技术的支撑 :

存储设备容量不断增加

CPU的处理能力不断提高

网络带宽不断增加

数据产生方式的变革促成大数据时代的来临

  1. 运营式系统阶段
  2. 用户原创内容
  3. 感知式系统阶段

大数据发展历程 :

分为三个阶段 :

大数据的概念 :

1 . 数据量大 :

  • 根据IDC作出的估测,数据一直都在以每年50%的速度增长,也就是说每两年就增长一倍(大数据摩尔定律)。
  • 人类在最近两年产生的数据量相当于之前产生的全部数据量
  • 预计到2020年,全球将总共拥有35ZB的数据量,相较于2010年,数据量将增长近30倍。

2 . 数据类型繁多

大数据是由结构化和非结构化数据组成的
大部分数据都是非结构话数据;
结构化数据 :

存储在关系型数据库中的结构化数据;


非结构化数据
如 : 图像,视频,等等

3 . 高处理速度

4 . 价值密度低,商业价值高

以视频为例,连续不间断监控过程中,可能有用的数据仅仅有一两秒,但是具有很高的商业价值。

大数据的影响

• 在社会发展方面:大数据决策逐渐成为一种新的决策方式,大数据应用有力促进了信息技术与各行业的深度融合,大数据开发大大推动了新技术和新应用的不断涌现。

• 在就业市场方面:大数据的兴起使得数据科学家成为热门职业。

• 在人才培养方面:大数据的兴起,将在很大程度上改变中国高校信息技术相关专业的现有教学和科研体制。

大数据的应用 :

大数据无处不在,包括金融、汽车、零售、餐饮、电信、能源、政务、医疗、体育、娱乐等在内的社会各行各业都已经融入了大数据的印迹。

大数据的关键技术 :

包含4个层次 :

其中最核心的两个技术层次 :

  1. 数据的存储与管理
  2. 数据处理与分析

两大技术 :

  1. 分布式存储
  2. 分布式处理


大数据的计算模式 :

不同的计算模式要使用不同的处理技术(产品) :

大数据计算模式及其代表产品 :

|-------------|-----------------|------------------------------------------------------------|
| 大数据计算模式 | 解决问题 | 代表产品 |
| 批处理计算 | 针对大规模数据的批量处理 | MapReduce、Spark等 |
| 流计算 | 针对流数据的实时计算 | Storm、S4、Flume、Streams、Puma、DStream、Super Mario、银河流数据处理平台等 |
| 图计算 | 针对大规模图结构数据的处理 | Pregel、GraphX、Giraph、PowerGraph、Hama、GoldenOrb等 |
| 查询分析计算 | 大规模数据的存储管理和查询分析 | Dremel、Hive、Cassandra、Impala等 |

1 . 批处理

批处理主要解决针对大规模数据的批量计算,MapReduce是最具代表性的批处理技术;

spark对mapreduce进行了很多方面的优化 ;

批处理无法进行实时处理;

2 . 流计算

实时计算


3 . 图处理

解决图和网络数据的处理;

4 . 查询分析计算

针对超大规模的存储管理和查询分析;

大数据与云计算,物联网的关系

1.云计算

云计算实现了通过网络提供可伸缩的、廉价的分布式计算能力,用户只需要在具备网络接入条件的地方,就可以随时随地获得所需的各种IT资源。

大数据与云计算、物联网的关系大数据与云计算、物联网的关系

云计算关键技术 :

包括虚拟化,分布式存储,分布式计算,多租户等

2.物联网

物联网是物物相连的互联网,是互联网的延伸,它利用局部网络或互联网等通信技术把传感器、控制器、机器、人员和物等通过新的方式联在一起,形成人与物、物与物相联,实现信息化和远程管理控制。

关键技术 :

物联网中的关键技术包括识别和感知技术(二维码、RFID、传感器等)、网络与通信技术、数据挖掘与融合技术等。

3 . 关系

云计算、大数据和物联网代表了IT领域最新的技术发展趋势,三者既有区别又有联系。

相关推荐
qq_5470261791 小时前
Elasticsearch 正排索引
大数据·elasticsearch·jenkins
宝哥大数据3 小时前
Flinksql--订单宽表
大数据·flink
jinan8864 小时前
企业的移动终端安全怎么管理?
大数据·网络·安全·数据分析·开源软件
叶辰 .5 小时前
ES使用聚合aggregations实战(2025.04.02更新)
大数据·elasticsearch·jenkins
zxsz_com_cn5 小时前
风电行业预测性维护解决方案:AIoT驱动下的风机健康管理革命
大数据·运维·人工智能
说私域14 小时前
基于开源AI大模型与S2B2C模式的线下服务型门店增长策略研究——以AI智能名片与小程序源码技术为核心
大数据·人工智能·小程序·开源
V_HY1476214 小时前
AI碰一碰发视频获客工具,系统开发逻辑详细解析
大数据·人工智能·新媒体运营·流量运营
遇码14 小时前
单机快速部署开源、免费的分布式任务调度系统——DolphinScheduler
大数据·运维·分布式·开源·定时任务·dolphin·scheduler
一个天蝎座 白勺 程序猿15 小时前
大数据(4.2)Hive核心操作实战指南:表创建、数据加载与分区/分桶设计深度解析
大数据·hive·hadoop
计算机毕设定制辅导-无忧学长16 小时前
TDengine 核心概念与时序数据模型深度解析(一)
大数据·时序数据库·tdengine