大数据概述(林子雨慕课课程)

文章目录

    • [1. 大数据概述](#1. 大数据概述)
      • [1.1 大数据概念和影响](#1.1 大数据概念和影响)
      • [1.2 大数据的应用](#1.2 大数据的应用)
      • [1.3 大数据的关键技术](#1.3 大数据的关键技术)
      • [1.4 大数据与云计算和物联网的关系](#1.4 大数据与云计算和物联网的关系)

1. 大数据概述

  • 大数据的四大特点:大量化、快速化、多样化、价值密度低

1.1 大数据概念和影响

  • 大数据摩尔定律
  • 大数据由结构化和非结构化的数据组成,非结构化的数据占比大,如图像数据

  • 结构化的数据就是关系数据库表中的图表数据

  • 非结构化的数据种类繁多

  • 大数据从数据的生成到消耗,时间窗口非常小,可用于生成决策的时间非常少,必须实现秒级决策

  • 价值密度低,商业价值高

  • 大数据的影响

    • 全样非抽样:因为现在存储廉价,数据可以全部保存,不在需要抽样进行统计分析
    • 效率而非精确:因为从前的抽样的结果误差放在全样上会被放大,现在基于全样的分析不存在效率问题
    • 相关而非因果:大数据时代追求的更多的追求数据之间的相关性,而非因果关系

1.2 大数据的应用

1.3 大数据的关键技术

  • 四个关键技术
  • 两大核心技术:分布式存储和分布式处理
    • 分布式存储:解决海量数据的存储问题

      • 分布式数据库,以及分布式文件系统
    • 分布式处理:解决海量数据的处理问题

      • 分布式并行处理技术
  • 不同的计算模式需要不同产品:批处理、流计算、图计算、查询分析计算

    • MapReduce是批处理计算模式的典型代表,其无法满足实时要求
    • 流计算:流数据需要实时处理,给出实时响应,否则分析结果会失去商业价值
      • S4+Storm+Flume
    • 图计算:代表Goole Pregel 设计可以高效处理图流数据的产品
    • 查询分析计算:秒级响应,实现交互式计算,如Google Dremel、Hive、Cassandra

1.4 大数据与云计算和物联网的关系

云计算
  • 云计算:解决海量数据的分布式存储问题和分布式处理问题

    • 典型特征:虚拟化、多租户
    • 概念:云计算是通过网络以服务的方式为用户提供非常廉价的IT资源
    • 优势:企业无需自建IT基础设施,可以租用云端资源
    • 云的三种模式
  • 云计算的三种模式

    • 公有云:构建的云平台是面对所有公众服务的:如百度云

    • 私有云:企业内部自己构建的面对企业内部员工的云平台

    • 混合云:构建的云平台部分给自己用,部分给外面用

  • 三种云服务:

    • IaaS:基础设施即服务

      • 将基础设施(计算资源和存储)作为服务出租
    • PaaS:平台即服务

      • 开发云产品:在别人提供的云服务环境中,利用其提供的接口,开发各种云服务产品,也部署到其分布式环境中去

    • SaaS:软件即服务

      • 将云中心财务软件买卖给你
  • 虚拟化和多租户:

  • 云计算数据中心:各种数据和应用,并非在天上云端,而是位于数据中心里

    • 其应用广泛
物联网
  • 概念:物联网(IoT:The Internet of Things)物联网就是物物相连的互联网,是互联网的延伸

  • 物联网的层次架构

  • 物联网的关键技术:识别和感知技术

  • 物联网的应用:

  • 云计算和物联网的关系:

相关推荐
老蒋新思维4 小时前
创客匠人峰会深度解析:知识变现的 “信任 - 效率” 双闭环 —— 从 “单次交易” 到 “终身复购” 的增长密码
大数据·网络·人工智能·tcp/ip·重构·数据挖掘·创客匠人
EveryPossible6 小时前
优先级调整练习1
大数据·学习
B站计算机毕业设计之家7 小时前
基于大数据热门旅游景点数据分析可视化平台 数据大屏 Flask框架 Echarts可视化大屏
大数据·爬虫·python·机器学习·数据分析·spark·旅游
亿坊电商9 小时前
无人共享茶室智慧化破局:24H智能接单系统的架构实践与运营全景!
大数据·人工智能·架构
老蒋新思维9 小时前
创客匠人峰会新解:AI 时代知识变现的 “信任分层” 法则 —— 从流量到高客单的进阶密码
大数据·网络·人工智能·tcp/ip·重构·创始人ip·创客匠人
Jerry.张蒙9 小时前
SAP业财一体化实现的“隐形桥梁”-价值串
大数据·数据库·人工智能·学习·区块链·aigc·运维开发
一勺-_-10 小时前
.git文件夹
大数据·git·elasticsearch
秋刀鱼 ..11 小时前
2026年电力电子与电能变换国际学术会议 (ICPEPC 2026)
大数据·python·计算机网络·数学建模·制造
G皮T12 小时前
【Elasticsearch】 大慢查询隔离(一):最佳实践
大数据·elasticsearch·搜索引擎·性能调优·索引·性能·查询
expect7g13 小时前
Paimon源码解读 -- Compaction-6.CompactStrategy
大数据·后端·flink