大数据与云计算知识点

奋斗的蛋黄2025-09-11 8:47

一、云计算核心要点

定义

云计算是基于互联网的动态易扩展、虚拟化资源交付模式，按使用量付费，用户可按需访问含网络、服务器、存储等的计算资源共享池，且无需过多管理干预（美国国家标准与技术研究院NIST定义）。

核心特征

自我服务：用户可自主调配资源，无需依赖服务方人工操作
按量付费：根据实际资源使用量结算，降低闲置成本
弹性架构：支持资源灵活扩展与收缩，适配业务波动需求

核心优势

节省硬件采购与维护成本
减少软件许可费用
降低运维团队人力开支
优化系统能耗

两大分类模式

| 分类维度 | 具体类型 | 特点 |

| 资源归属 | 私有云 | 部署于企业内部，仅面向内部员工使用 |

| | 公有云 | 面向互联网大众，提供开放资源服务 |

| | 混合云 | 融合私有云与公有云，兼顾安全与扩展 |

| 服务模式 | IaaS（基础设施即服务） | 提供基础硬件资源（如网盘、阿里云主机、EC2） |

| | PaaS（平台即服务） | 提供开发与运行平台（如Google Appspot、百度BAE） |

| | SaaS（软件即服务） | 提供直接可用软件应用（如搜索引擎、地图、电商平台） |

| | DaaS（数据即服务） | 提供数据查询、分析等数据服务 |

关键技术

分布式计算与存储：通过计算集群、存储集群提升处理能力与容量
虚拟化技术：细粒度划分计算资源，提高利用率、降低成本
自动运维技术：实现集群机器自动部署、故障节点自动剔除
计费模式：与业务场景绑定，是云计算商业化核心难点6. 起源与主流平台
起源：亚马逊AWS（含S3存储、EC2虚拟计算等）是云计算商业化开端，核心推动者为亚马逊CTO Werner Vogels
主流平台：
OpenStack：开源（Apache许可），含Nova（虚拟服务器部署）、Swift（分布式存储）模块
CloudStack：开源，隶属Apache基金会顶级项目
Eucalyptus：源于高校研究，已商业化
VMware：非开源收费，侧重企业级虚拟化

二、大数据核心要点

起源

技术源头：Google的GFS（分布式文件系统）、Map-Reduce（并行计算框架）、Big Table（分布式数据库）奠定基础
关键项目：Doug Cutting主导的Hadoop，是大数据核心开源框架

Hadoop 2.0核心组件

| 组件 | 功能 |

| HDFS | 分布式文件系统，提供高可靠、高扩展、高吞吐的海量数据存储 |

| YARN | 集群资源调度器，统一管理计算资源，支撑多任务并行 |

| MapReduce | 分布式计算框架，易编程、高容错、高扩展，适用于批量数据处理 |

Hadoop版本演化

1.0时代：MapReduce同时承担"资源管理"与"数据处理"，架构耦合度高
2.0及以后：YARN独立负责资源管理，MapReduce仅聚焦数据处理，支持Spark、Storm等多框架接入

国内典型应用案例

京东：200-300节点Hadoop集群，为企业及第三方商家提供数据日志分析
淘宝&支付宝：9个集群，单集群超3000节点，日均处理数据2-3PB
百度：约3万节点集群，日均处理数据30PB+，日运行作业超20万次

三、两者关联

云计算为大数据提供弹性、低成本的基础设施支撑（如分布式存储、计算资源池），大数据是云计算的重要应用场景，二者协同推动海量数据高效处理与价值挖掘。

上一篇：扣子（Coze）实战：一键扒光小红书爆款，自动汇总到飞书

下一篇：SpringBoot性能翻倍的7个隐藏配置，90%开发者从不知道！

热门推荐

012026年7月AI圈大地震：GPT-5.6被政府限制、Claude入驻Slack、Anthropic自研芯片 02GitHub 镜像站点 03如何新建文件夹？电脑新建文件夹的4种方法 04幻兽帕鲁 - 服务器管理员权限与 GM 命令完全指南 05AI科技热点日报 | 2026年07月01日 06国内可直接用、免费额度/永久免费的大模型API清单（含 SiliconFlow、火山、阿里、智谱、百度、Kimi、DeepSeek、DMXAPI 等）07AI 编程 IDE 全景解析 2026：Agent 全面接管开发链路 082026 国产 AI 大模型横评：DeepSeek、通义千问、Kimi、文心一言、星火、豆包谁更能打？09微信历史版本含下载地址（ Windows PC | 安卓 | MAC ）及设置微信不更新 10Kimi K3 真实体验：全网评价整理，优缺点一次性说清楚