大数据与云计算知识点

一、云计算核心要点

  1. 定义

云计算是基于互联网的动态易扩展、虚拟化资源交付模式,按使用量付费,用户可按需访问含网络、服务器、存储等的计算资源共享池,且无需过多管理干预(美国国家标准与技术研究院NIST定义)。

  1. 核心特征
  • 自我服务:用户可自主调配资源,无需依赖服务方人工操作

  • 按量付费:根据实际资源使用量结算,降低闲置成本

  • 弹性架构:支持资源灵活扩展与收缩,适配业务波动需求

  1. 核心优势
  • 节省硬件采购与维护成本

  • 减少软件许可费用

  • 降低运维团队人力开支

  • 优化系统能耗

  1. 两大分类模式

| 分类维度 | 具体类型 | 特点 |

| 资源归属 | 私有云 | 部署于企业内部,仅面向内部员工使用 |

| | 公有云 | 面向互联网大众,提供开放资源服务 |

| | 混合云 | 融合私有云与公有云,兼顾安全与扩展 |

| 服务模式 | IaaS(基础设施即服务) | 提供基础硬件资源(如网盘、阿里云主机、EC2) |

| | PaaS(平台即服务) | 提供开发与运行平台(如Google Appspot、百度BAE) |

| | SaaS(软件即服务) | 提供直接可用软件应用(如搜索引擎、地图、电商平台) |

| | DaaS(数据即服务) | 提供数据查询、分析等数据服务 |

  1. 关键技术
  • 分布式计算与存储:通过计算集群、存储集群提升处理能力与容量

  • 虚拟化技术:细粒度划分计算资源,提高利用率、降低成本

  • 自动运维技术:实现集群机器自动部署、故障节点自动剔除

  • 计费模式:与业务场景绑定,是云计算商业化核心难点6. 起源与主流平台

  • 起源:亚马逊AWS(含S3存储、EC2虚拟计算等)是云计算商业化开端,核心推动者为亚马逊CTO Werner Vogels

  • 主流平台:

  • OpenStack:开源(Apache许可),含Nova(虚拟服务器部署)、Swift(分布式存储)模块

  • CloudStack:开源,隶属Apache基金会顶级项目

  • Eucalyptus:源于高校研究,已商业化

  • VMware:非开源收费,侧重企业级虚拟化

二、大数据核心要点

  1. 起源
  • 技术源头:Google的GFS(分布式文件系统)、Map-Reduce(并行计算框架)、Big Table(分布式数据库)奠定基础

  • 关键项目:Doug Cutting主导的Hadoop,是大数据核心开源框架

  1. Hadoop 2.0核心组件

| 组件 | 功能 |

| HDFS | 分布式文件系统,提供高可靠、高扩展、高吞吐的海量数据存储 |

| YARN | 集群资源调度器,统一管理计算资源,支撑多任务并行 |

| MapReduce | 分布式计算框架,易编程、高容错、高扩展,适用于批量数据处理 |

  1. Hadoop版本演化
  • 1.0时代:MapReduce同时承担"资源管理"与"数据处理",架构耦合度高

  • 2.0及以后:YARN独立负责资源管理,MapReduce仅聚焦数据处理,支持Spark、Storm等多框架接入

  1. 国内典型应用案例
  • 京东:200-300节点Hadoop集群,为企业及第三方商家提供数据日志分析

  • 淘宝&支付宝:9个集群,单集群超3000节点,日均处理数据2-3PB

  • 百度:约3万节点集群,日均处理数据30PB+,日运行作业超20万次

三、两者关联

云计算为大数据提供弹性、低成本的基础设施支撑(如分布式存储、计算资源池),大数据是云计算的重要应用场景,二者协同推动海量数据高效处理与价值挖掘。

相关推荐
东哥说-MES|从入门到精通7 小时前
GenAI-生成式人工智能在工业制造中的应用
大数据·人工智能·智能制造·数字化·数字化转型·mes
万岳软件开发小城7 小时前
教育APP/小程序开发标准版图:课程、题库、直播、学习一站式梳理
大数据·php·uniapp·在线教育系统源码·教育app开发·教育软件开发
STLearner9 小时前
AI论文速读 | U-Cast:学习高维时间序列预测的层次结构
大数据·论文阅读·人工智能·深度学习·学习·机器学习·数据挖掘
数字化顾问9 小时前
(65页PPT)大型集团物料主数据管理系统建设规划方案(附下载方式)
大数据·运维·人工智能
翼龙云_cloud9 小时前
阿里云渠道商:新手怎么操作阿里云无影云电脑?
运维·服务器·阿里云·云计算·电脑
老蒋新思维10 小时前
创客匠人 2025 全球创始人 IP+AI 万人高峰论坛:AI 赋能下知识变现与 IP 变现的实践沉淀与行业启示
大数据·人工智能·网络协议·tcp/ip·重构·创始人ip·创客匠人
AKAMAI11 小时前
Akamai 宣布收购功能即服务公司 Fermyon
人工智能·云计算
河南博为智能科技有限公司11 小时前
高集成度国产八串口联网服务器:工业级多设备联网解决方案
大数据·运维·服务器·数据库·人工智能·物联网
无代码专家13 小时前
设备巡检数字化解决方案:构建高效闭环管理体系
java·大数据·人工智能
天远数科13 小时前
Node.js 原生加密指南:详解 Crypto 模块对接天远银行卡黑名单接口
大数据·api