bigdata

zhojiew15 天前
aws·emr·bigdata
[INFRA] EMR集群节点下线 (Decommission) 机制和逻辑深入分析EMR 节点下线由三层协同完成:关键配置文件如下下线 Task 节点时 yarn.nodes.exclude.xml 内容:
zhojiew15 天前
hive·hadoop·spark·aws·bigdata
[INFRA] EMR集群中Hive和Spark集成Glue Data Catalog过程的深入分析本文基于 EMR 7.12.0 集群实际反编译分析。集群配置如下EMR 通过 AWS Glue Data Catalog 替代传统 Hive Metastore(MySQL/Derby)后端。其核心机制是利用 Hive 的 HiveMetaStoreClientFactory SPI 扩展点,用 AWS SDK v2 的 Glue API 调用替换 Thrift RPC + MySQL 后端,同时通过双向 Converter 在 Hive/Glue 数据模型之间无缝转换。
zhojiew16 天前
安全·aws·emr·bigdata
[INFRA] EMR集群安全配置传输中加密和Kerberos认证配置详解EMR Security Configuration(安全配置)是 Amazon EMR 提供的可复用安全策略模板,用于集中定义集群的加密、认证和授权设置。
zhojiew16 天前
aws·emr·bigdata
[INFRA] EMR集群启用HA高可用架构和配置分析本次测试基于 EMR 7.12.0 HA 集群实际配置,在创建集群时配置如下external metastore并开启HA
zhojiew17 天前
aws·emr·bigdata
[INFRA] EMR集群LogPusher组件功能和运行原理分析本文主要研究 EMR 集群中的 LogPusher 组件。这个组件虽然看起来只是推日志,但它的内部机制其实相当复杂,涉及三层配置系统、HSQLDB 数据库、磁盘空间管理、多线程并发上传等多个子系统
zhojiew17 天前
aws·emr·bigdata
[INFRA] EMR集群CWagent组件功能和运行原理分析本文主要讲述 EMR 集群中的 CloudWatch Agent组件。CWAgent 是负责采集操作系统级别指标(CPU、内存、磁盘、网络等)并发送到 CloudWatch Metrics 的守护进程。它和 MetricsCollector 的职责完全不同:MC 采集的是 YARN/HDFS 应用指标用于 Managed Scaling 决策,而 CWAgent 采集的是 OS 系统指标用于监控告警。
zhojiew17 天前
aws·emr·bigdata
[INFRA] EMR集群MetricsCollector组件功能和运行原理分析本文主要讲述 EMR 集群中的 MetricsCollector(简称 MC)组件。MC 是 Managed Scaling(托管扩缩容)的核心数据采集器,负责从 YARN 和 HDFS 采集指标,通过 WebSocket 上报给 EMR 控制面,为自动扩缩容提供决策数据。
zhojiew17 天前
aws·emr·bigdata
[INFRA] EMR集群Instance Controller组件功能和运行原理分析参考资料本文主要内容为梳理 EMR 集群中的核心组件Instance Controller(简称 IC)。IC 是整个 EMR 集群的"大脑",负责集群编排、应用管理、Step 执行、健康监控、RPC 通信、状态管理等几乎所有核心功能。
QmZVLlLHvXq2 个月前
bigdata
两级式单相光伏并网仿真(注意版本matlab 2021a) 前级采用DC-DC变换电路两级式单相光伏并网仿真(注意版本matlab 2021a) 前级采用DC-DC变换电路,通过MPPT控制DC-DC电路的pwm波来实现最大功率跟踪,mppt采用扰动观察法,后级采用桥式逆变,用spwm波调制。 采用双闭环控制,实现直流母线电压的稳定和单位功率因数。 并网效果良好,thd满足并网要求,附带仿真说明文件
ask_baidu2 个月前
kafka·bigdata
KafkaUtils1. java代码2. server.properties 不同的地方 broker.id=0 listeners=PLAINTEXT://10.100.1.1:9092 advertised.listeners=PLAINTEXT://10.100.1.1:9092
严同学正在努力2 个月前
python·sql·ai·开源·bigdata
DataAgent:企业级智能数据分析师,Text-to-SQL+Python 分析 + 自动出报告一站式搞定(开源项目)系统采用高度可扩展的架构设计,全面兼容 OpenAI 接口规范的对话模型与 Embedding 模型,并支持灵活挂载任意向量数据库。无论是私有化部署还是接入主流大模型服务(如 Qwen, Deepseek),都能轻松适配,为企业提供灵活、可控的数据洞察服务。 这个是他的访问地址:DataAgent 他这里也有很多友好的参考手册
deepdata_cn3 个月前
大数据·bigdata·深数据·deepdata
“深数据” vs “大数据”在数据驱动决策的时代,“大数据”早已成为高频热词,而“深数据”作为新兴概念,正逐渐走进行业视野。二者并非对立关系,却在核心逻辑、价值维度与应用场景上存在显著分野,共同构成了数据价值挖掘的两大重要方向。厘清二者的差异与关联,能帮助我们更精准地选择数据挖掘策略,释放数据的核心势能。
小鹿学程序4 个月前
linux·bigdata
任务一-1.子任务一:基础环境准备1.安装并配置 Java 环境Hadoop 等分布式框架依赖 Java,需安装 JDK(推荐 JDK 8); 下载 JDK(以jdk-8u361-linux-x64.tar.gz为例,需提前从 Oracle 官网或镜像站下载); 从本地上传文件到虚拟机使用到软件有Xshell,XFTP,Filezilla,需要主机先去官网下载文件(具体配置及使用参考链接1)。
シ風箏4 个月前
大数据·架构·flink·bigdata
Flink【基础知识 01】简介+核心架构+分层API+集群架构+应用场景+特点优势(一篇即可大概了解Flink)目前比较流行的大数据混合处理引擎 Spark【基于内存】,基本上已经取代了Hadoop 的 MapReduce 【基于IO】成为当前大数据处理的标准。Spark-Streaming 的流计算本质上还是批(微批)计算,Flink 是近年来在开源社区不断发展的技术中的能够同时支持高吞吐、低延迟、高性能的纯实时的分布式处理框架【Flink的开窗函数丰富】。
シ風箏4 个月前
大数据·flink·bigdata
Flink【环境搭建 01】1.9.3 集群版安装、配置、验证我使用的安装文件是 flink-1.9.3-bin-scala_2.12.tgz ,以下内容均以此版本进行说明。
IT毕设梦工厂6 个月前
大数据·hadoop·信息可视化·spark·毕业设计·源码·bigdata
大数据毕业设计选题推荐-基于大数据的人体生理指标管理数据可视化分析系统-Hadoop-Spark-数据可视化-BigData✨作者主页:IT毕设梦工厂✨ 个人简介:曾从事计算机专业培训教学,擅长Java、Python、PHP、.NET、Node.js、GO、微信小程序、安卓Android等项目实战。接项目定制开发、代码讲解、答辩教学、文档编写、降重等。 ☑文末获取源码☑ 精彩专栏推荐⬇⬇⬇ Java项目 Python项目 安卓项目 微信小程序项目
IT研究室6 个月前
大数据·hadoop·数据分析·spark·毕业设计·源码·bigdata
大数据毕业设计选题推荐-基于大数据的人体体能活动能量消耗数据分析与可视化系统-大数据-Spark-Hadoop-Bigdata✨作者主页:IT研究室✨ 个人简介:曾从事计算机专业培训教学,擅长Java、Python、微信小程序、Golang、安卓Android等项目实战。接项目定制开发、代码讲解、答辩教学、文档编写、降重等。 ☑文末获取源码☑ 精彩专栏推荐⬇⬇⬇ Java项目 Python项目 安卓项目 微信小程序项目
IT毕设梦工厂6 个月前
大数据·hadoop·数据分析·spark·毕业设计·源码·bigdata
大数据毕业设计选题推荐-基于大数据的人口普查收入数据分析与可视化系统-Hadoop-Spark-数据可视化-BigData✨作者主页:IT毕设梦工厂✨ 个人简介:曾从事计算机专业培训教学,擅长Java、Python、PHP、.NET、Node.js、GO、微信小程序、安卓Android等项目实战。接项目定制开发、代码讲解、答辩教学、文档编写、降重等。 ☑文末获取源码☑ 精彩专栏推荐⬇⬇⬇ Java项目 Python项目 安卓项目 微信小程序项目
IT研究室6 个月前
大数据·hadoop·数据分析·spark·毕业设计·源码·bigdata
大数据毕业设计选题推荐-基于大数据的全球产品库存数据分析与可视化系统-大数据-Spark-Hadoop-Bigdata✨作者主页:IT研究室✨ 个人简介:曾从事计算机专业培训教学,擅长Java、Python、微信小程序、Golang、安卓Android等项目实战。接项目定制开发、代码讲解、答辩教学、文档编写、降重等。 ☑文末获取源码☑ 精彩专栏推荐⬇⬇⬇ Java项目 Python项目 安卓项目 微信小程序项目
IT研究室6 个月前
大数据·hadoop·spark·毕业设计·源码·数据可视化·bigdata
大数据毕业设计选题推荐-基于大数据的全球能源消耗量数据分析与可视化系统-大数据-Spark-Hadoop-Bigdata✨作者主页:IT研究室✨ 个人简介:曾从事计算机专业培训教学,擅长Java、Python、微信小程序、Golang、安卓Android等项目实战。接项目定制开发、代码讲解、答辩教学、文档编写、降重等。 ☑文末获取源码☑ 精彩专栏推荐⬇⬇⬇ Java项目 Python项目 安卓项目 微信小程序项目