大数据概述(林子雨慕课课程)

文章目录

    • [1. 大数据概述](#1. 大数据概述)
      • [1.1 大数据概念和影响](#1.1 大数据概念和影响)
      • [1.2 大数据的应用](#1.2 大数据的应用)
      • [1.3 大数据的关键技术](#1.3 大数据的关键技术)
      • [1.4 大数据与云计算和物联网的关系](#1.4 大数据与云计算和物联网的关系)

1. 大数据概述

  • 大数据的四大特点:大量化、快速化、多样化、价值密度低

1.1 大数据概念和影响

  • 大数据摩尔定律
  • 大数据由结构化和非结构化的数据组成,非结构化的数据占比大,如图像数据

  • 结构化的数据就是关系数据库表中的图表数据

  • 非结构化的数据种类繁多

  • 大数据从数据的生成到消耗,时间窗口非常小,可用于生成决策的时间非常少,必须实现秒级决策

  • 价值密度低,商业价值高

  • 大数据的影响

    • 全样非抽样:因为现在存储廉价,数据可以全部保存,不在需要抽样进行统计分析
    • 效率而非精确:因为从前的抽样的结果误差放在全样上会被放大,现在基于全样的分析不存在效率问题
    • 相关而非因果:大数据时代追求的更多的追求数据之间的相关性,而非因果关系

1.2 大数据的应用

1.3 大数据的关键技术

  • 四个关键技术
  • 两大核心技术:分布式存储和分布式处理
    • 分布式存储:解决海量数据的存储问题

      • 分布式数据库,以及分布式文件系统
    • 分布式处理:解决海量数据的处理问题

      • 分布式并行处理技术
  • 不同的计算模式需要不同产品:批处理、流计算、图计算、查询分析计算

    • MapReduce是批处理计算模式的典型代表,其无法满足实时要求
    • 流计算:流数据需要实时处理,给出实时响应,否则分析结果会失去商业价值
      • S4+Storm+Flume
    • 图计算:代表Goole Pregel 设计可以高效处理图流数据的产品
    • 查询分析计算:秒级响应,实现交互式计算,如Google Dremel、Hive、Cassandra

1.4 大数据与云计算和物联网的关系

云计算
  • 云计算:解决海量数据的分布式存储问题和分布式处理问题

    • 典型特征:虚拟化、多租户
    • 概念:云计算是通过网络以服务的方式为用户提供非常廉价的IT资源
    • 优势:企业无需自建IT基础设施,可以租用云端资源
    • 云的三种模式
  • 云计算的三种模式

    • 公有云:构建的云平台是面对所有公众服务的:如百度云

    • 私有云:企业内部自己构建的面对企业内部员工的云平台

    • 混合云:构建的云平台部分给自己用,部分给外面用

  • 三种云服务:

    • IaaS:基础设施即服务

      • 将基础设施(计算资源和存储)作为服务出租
    • PaaS:平台即服务

      • 开发云产品:在别人提供的云服务环境中,利用其提供的接口,开发各种云服务产品,也部署到其分布式环境中去

    • SaaS:软件即服务

      • 将云中心财务软件买卖给你
  • 虚拟化和多租户:

  • 云计算数据中心:各种数据和应用,并非在天上云端,而是位于数据中心里

    • 其应用广泛
物联网
  • 概念:物联网(IoT:The Internet of Things)物联网就是物物相连的互联网,是互联网的延伸

  • 物联网的层次架构

  • 物联网的关键技术:识别和感知技术

  • 物联网的应用:

  • 云计算和物联网的关系:

相关推荐
科技小花16 小时前
全球化深水区,数据治理成为企业出海 “核心竞争力”
大数据·数据库·人工智能·数据治理·数据中台·全球化
weixin_3709763518 小时前
AI的终极赛跑:进入AGI,还是泡沫破灭?
大数据·人工智能·agi
一切皆是因缘际会20 小时前
AI数字分身的底层原理:破解意识、自我与人格复刻的核心难题
大数据·人工智能·ai·架构
上海光华专利事务所20 小时前
跨境电商商标专利管理平台
大数据·产品运营
Elastic 中国社区官方博客21 小时前
ES|QL METRICS_INFO 和 TS_INFO:为你的时间序列数据建立目录
大数据·数据库·elasticsearch·搜索引擎·信息可视化·全文检索
jinanwuhuaguo1 天前
(第二十七篇)OpenClaw四月的演化风暴:OpenClaw 2026年4月全版本更新的文明级解读
大数据·人工智能·架构·kotlin·openclaw
清晨0011 天前
工业生产实时数据获取方案-TDengine
大数据·时序数据库·tdengine
极创信息1 天前
信创产品认证怎么做?信创产品测试认证的主要流程
java·大数据·数据库·金融·软件工程
Elastic 中国社区官方博客1 天前
Elastic 和 Cursor 合作 加速 上下文工程 与 coding agents
大数据·人工智能·elasticsearch·搜索引擎·全文检索
lzhdim1 天前
SQL 入门 12:SQL 视图:创建、修改与可更新视图
java·大数据·服务器·数据库·sql