emr

zhojiew17 天前
aws·emr·bigdata
[INFRA] EMR集群节点下线 (Decommission) 机制和逻辑深入分析EMR 节点下线由三层协同完成:关键配置文件如下下线 Task 节点时 yarn.nodes.exclude.xml 内容:
zhojiew18 天前
安全·aws·emr·bigdata
[INFRA] EMR集群安全配置传输中加密和Kerberos认证配置详解EMR Security Configuration(安全配置)是 Amazon EMR 提供的可复用安全策略模板,用于集中定义集群的加密、认证和授权设置。
zhojiew18 天前
aws·emr·bigdata
[INFRA] EMR集群启用HA高可用架构和配置分析本次测试基于 EMR 7.12.0 HA 集群实际配置,在创建集群时配置如下external metastore并开启HA
zhojiew19 天前
aws·emr·bigdata
[INFRA] EMR集群LogPusher组件功能和运行原理分析本文主要研究 EMR 集群中的 LogPusher 组件。这个组件虽然看起来只是推日志,但它的内部机制其实相当复杂,涉及三层配置系统、HSQLDB 数据库、磁盘空间管理、多线程并发上传等多个子系统
zhojiew19 天前
aws·emr·bigdata
[INFRA] EMR集群CWagent组件功能和运行原理分析本文主要讲述 EMR 集群中的 CloudWatch Agent组件。CWAgent 是负责采集操作系统级别指标(CPU、内存、磁盘、网络等)并发送到 CloudWatch Metrics 的守护进程。它和 MetricsCollector 的职责完全不同:MC 采集的是 YARN/HDFS 应用指标用于 Managed Scaling 决策,而 CWAgent 采集的是 OS 系统指标用于监控告警。
zhojiew19 天前
aws·emr·bigdata
[INFRA] EMR集群MetricsCollector组件功能和运行原理分析本文主要讲述 EMR 集群中的 MetricsCollector(简称 MC)组件。MC 是 Managed Scaling(托管扩缩容)的核心数据采集器,负责从 YARN 和 HDFS 采集指标,通过 WebSocket 上报给 EMR 控制面,为自动扩缩容提供决策数据。
zhojiew19 天前
aws·emr·bigdata
[INFRA] EMR集群Instance Controller组件功能和运行原理分析参考资料本文主要内容为梳理 EMR 集群中的核心组件Instance Controller(简称 IC)。IC 是整个 EMR 集群的"大脑",负责集群编排、应用管理、Step 执行、健康监控、RPC 通信、状态管理等几乎所有核心功能。
阿里云大数据AI技术8 个月前
starrocks·clickhouse·阿里云·emr·实时分析
鹰角网络基于阿里云 EMR Serverless StarRocks 的实时分析工程实践鹰角网络(HYPERGRYPH) 成立于2017年,总部位于上海,是中国知名游戏研发与发行公司,代表产品包括现象级手游《明日方舟》及《泡姆泡姆》《来自星辰》《终末地》等。公司依托阿里云构建数据平台,支撑游戏运营、社区生态及用户行为分析等核心业务,数据规模与实时性需求持续增长。
阿里云大数据AI技术1 年前
大数据·分布式·云原生·spark·serverless·emr
在EMR Serverless Spark中实现StarRocks读写操作EMR Serverless Spark 是一款兼容开源 Spark 的高性能 Lakehouse 产品。它为用户提供任务开发、调试、发布、调度和运维等全方位的产品化服务,显著简化了大数据计算的工作流程,使用户能更专注于数据分析和价值提炼。
阿里云大数据AI技术1 年前
大数据·阿里云·spark·serverless·emr
美的楼宇科技基于阿里云 EMR Serverless Spark 构建 LakeHouse 湖仓数据平台作者:美的楼宇科技事业部 先行研究中心智能技术部美的楼宇科技事业部(以下简称楼宇科技)是美的集团旗下五大板块之一,产品覆盖多联机组、大型冷水机组、单元机、机房空调、扶梯、直梯、货梯以及楼宇自控软件和建筑弱电集成解决方案,远销海内外200多个国家。针对当前设备数据量庞大且持续增长、数据呈现半结构化特点的现状,现有系统仅停留在数据存储和基础使用层面,缺乏深度挖掘数据价值的能力,导致大量潜在信息未被充分利用。因此,迫切需要构建一个统一且通用的 IoT 数据平台,平台不仅要具备高度的弹性和轻量化特性,还应具备强大
阿里云大数据AI技术1 年前
大数据·阿里云·云计算·emr·弹性伸缩
阿里云 EMR 发布托管弹性伸缩功能,支持自动调整集群大小,最高降本60%开源大数据平台 E-MapReduce(简称“EMR”)是云原生开源大数据平台,为客户提供简单易集成的Hadoop、Hive、Spark、StarRocks、Flink、Presto等开源大数据计算和存储引擎。
阿里云大数据AI技术1 年前
大数据·olap·emr·dataworks·湖仓一体
DataWorks on EMR StarRocks,打造标准湖仓新范式在大数据领域,数据仓库和实时分析系统扮演着至关重要的角色。DataWorks 基于大数据引擎,为数据仓库/数据湖/湖仓一体等解决方案提供统一的全链路大数据开发治理平台,为用户带来智能化的数据开发和分析体验。而阿里云提供的 EMR Serverless StarRocks 全托管服务(下文简称 StarRocks),专注于实时分析场景,可提供高性能、全场景、极速统一的数据分析体验。
阿里云大数据AI技术1 年前
大数据·云原生·spark·serverless·emr
EMR Serverless Spark:一站式全托管湖仓分析利器本文根据2024云栖大会实录整理而成,演讲信息如下:演讲人:李钰(绝顶) | 阿里云智能集团资深技术专家,阿里云 EMR 团队负责人
阿里云大数据AI技术2 年前
大数据·阿里云·云计算·emr
阿里云 EMR StarRocks 在七猫的应用和实践七猫是一家深耕文化娱乐行业的互联网企业,总部坐落在上海市前滩中心。七猫旗下原创文学网站七猫中文网于2017年5月正式上线,专注为原创作者提供创作指导、版权运营等全方位一体化服务。七猫拳头产品七猫免费小说App于2018年8月正式上线,专注为用户提供正版、免费、优质的网络文学内容阅读服务。现平台用户超6亿,规模位列数字阅读行业前列。
阿里云大数据AI技术2 年前
大数据·分布式·spark·serverless·emr
通过 EMR Serverless Spark 提交 PySpark 流任务在大数据快速发展的时代,流式处理技术对于实时数据分析至关重要。EMR Serverless Spark提供了一个强大而可扩展的平台,它不仅简化了实时数据处理流程,还免去了服务器管理的烦恼,提升了效率。本文将指导您使用EMR Serverless Spark提交PySpark流式任务,展示其在流处理方面的易用性和可运维性。
csdn5659738502 年前
starrocks·云原生·serverless·emr
一文入门云上StarRocks | EMR Serverless StarRocks在使用一个云产品之前,我们首先需要知道云版StarRocks,也就是EMR Serverless StarRocks是什么?EMR Serverless StarRocks是开源StarRocks在阿里云上的全托管服务,您可以通过EMR Serverless StarRocks灵活的创建和管理StarRocks实例以及数据。StarRocks作为一款兼容MySQL协议的OLAP分析引擎,提供了极致的性能和丰富的OLAP场景模型,包括OLAP多维分析、数据湖分析、高并发查询以及实时数据分析。简单来说就是一款