spark

D愿你归来仍是少年2 天前
大数据·spark·apache
Apache Spark 第 3 章:核心概念 RDD / DataFrameRDD 血统 图— 理解"懒执行"的关键:map、filter、reduceByKey 这些 Transformation 调用后 Spark 什么都没做,只是在内存里记下了一张"操作流程图"(血统图)。直到你调用 collect()、count()、save() 这类 Action,整条链才从头开始真正运行。好处是 Spark 能看到全貌再优化,坏处是调试时不容易发现哪步出错。
Hello.Reader2 天前
python·spark·conda·pip
PySpark 安装保姆级教程pip、Conda、手动安装、Spark Connect 一次讲透(一)在大数据开发领域,Apache Spark 一直是非常核心的分布式计算框架。 而对于 Python 开发者来说,最常接触的入口并不是 Scala,而是 PySpark。
Light602 天前
大数据·人工智能·spark
SPARK Agent Protocol(SAP):AI Agent时代的前端开发革命指南摘要:在AI Agent重塑软件交互范式的2026年,SPARK Agent Protocol(SAP)作为专为AI Agent通信设计的极简协议,正在成为前端开发者转型"智能体指挥官"的关键技术栈。本文深度解析SAP协议的核心设计理念、技术架构与前端集成方案,涵盖从协议基础到实战落地的完整路径。通过对比传统JSON-RPC与SAP的Token效率差异,结合MCP、A2A等前沿协议,为前端开发者提供一套可操作、可扩展的AI Agent开发框架。文章包含详细的技术对比表、架构流程图和实战代码示例,帮助开发者
D愿你归来仍是少年2 天前
spark·apache
Apache Spark 第 4 章:Spark 整体架构作业生命周期(第一张) 是理解一切的起点。一个程序从 spark-submit 提交开始,经历七步: 提交 → Cluster Manager 分配资源 → Worker 启动 Executor → Executor 向 Driver 注册 → Driver 触发 Action 开始调度 → Executor 执行 Task → 结果返回 Driver。这七步走完,作业完成,Executor 被释放。 最重要的认知是:Driver 始终是大脑,Executor 只是无脑的执行者,它们完全听从 Driver
datablau国产数据库建模工具2 天前
大数据·数据挖掘·spark
【无标题】在企业数据仓库建设中,业务复杂、数据源多,使建模周期长且容易出错。需求常分散、模糊,团队需花大量时间梳理指标口径、字段定义和业务规则,同时还面临命名不统一、口径多版本、规则难落地的问题,模型复用性低,治理成本高。
yumgpkpm2 天前
flink·spark·apache
Apache Spark 和 Flink,处理实时大数据流对比(Cloudera CDH、CDP)Apache Spark 和 Flink,处理实时大数据流哪个更优?通过网盘分享的文件:麒麟kylin linux 安装CDH v7.1指南
D愿你归来仍是少年3 天前
大数据·spark
Apache Spark 从入门到精通:完整学习指南在 Spark 出现之前,Hadoop MapReduce 是大数据处理的主流方案,但它有一个致命弱点:每次计算都要把中间结果写到 HDFS 磁盘,导致迭代计算(如机器学习)极其缓慢。
D愿你归来仍是少年3 天前
flink·spark·apache
Apache Spark Real-Time Mode 深度解析:打破微批次壁垒,挑战 Flink 的实时王座长久以来,流处理领域存在一个经典的"鱼和熊掌"难题:工程团队不得不为同一条数据管道维护两套完全不同的引擎——用 Spark 跑批量 ETL,用 Flink 做毫秒级响应。这不仅带来了运维复杂度,也提高了学习成本。
jerryinwuhan3 天前
大数据·分布式·spark
Spark 安装配置1将下载的hadoop01的vmx文件打开即可虚拟机里的所有内容基本配置好,只需要配置网络以及IP地址即可
sunxunyong3 天前
大数据·分布式·spark
spark History Server 重启失败Ambari 在启动 Spark History Server 时,会通过 fast-hdfs-resource.jar 执行一系列 HDFS 资源操作,其中包括递归设置 /spark-history/ 目录权限(mode=0777)。 该操作会遍历目录下的所有文件,但当它遇到一个已经被删除的 .inprogress 文件时(可能是因为文件在遍历过程中被清理程序删除),就会抛出 FileNotFoundException。 这属于 Ambari 脚本的鲁棒性问题,清理残留文件可临时解决。 修改页面dir
jerryinwuhan4 天前
大数据·数据分析·spark
Spark数据分析1_环境配置本章目标: 搭建一个完整的大数据实验环境,包括:1️⃣ Linux系统 2️⃣ Hadoop 3️⃣ MySQL 4️⃣ Kafka 5️⃣ Anaconda + Python环境
我要用代码向我喜欢的女孩表白4 天前
大数据·分布式·spark
spark介绍背景 这里用的是spark3.2.1,他是基于内存计算的。Spark Standalone: 依赖java,Spark Standalone 是 Spark 原生集群模式,无需依赖第三方资源管理器,包含 Master 节点管理集群资源、Worker 节点执行任务,部署简单,适合中小规模数据处理场景。 java,etc/prfoile的配置 export JAVA_HOME=/usr/local/java/jdk8.0.19/TencentKona-8.0.19-422 export PATH=$PATH:
大大大大晴天5 天前
大数据·spark
Hudi生产问题排障-insert overwrite 路径不存在我们使用Flink+Hudi架构实现实时数据贴源入湖,实时湖的下游建设有对接Kyuubi/Trino进行即席探查与自助分析,也有使用Spark定时微批进行湖上的准实时加工聚合处理,后续对接Olap提供查询加速服务或同步HBase表提供高并发点查服务等。
Light605 天前
大数据·人工智能·spark
SPARK View:从“AI手工作坊”到“软件工业革命摘要:当主流AI编程工具仍在“生成-调试”的循环中内卷时,一种新范式已悄然成熟。SPARK View不再追求生成更聪明的代码,而是重建了软件的生产体系:让AI产出标准化的“配置蓝图”,交由自动化引擎执行,并通过闭环实现自愈。这标志着我们从个体技艺的“手工作坊”,迈向了规模化、确定性的“软件工业”时代。
潘达斯奈基~5 天前
大数据·spark·pandas
Spark踩坑:如何优化pandas_udf中的多维数组传输效率目录一、问题背景二、遇到的问题1. 数据传输效率低下2. Python处理开销大3. 模型加载重复三、问题根因
最初的↘那颗心5 天前
大数据·spark·分布式计算
Spark Job 调度机制拆解:从 Action 算子到 Task 执行搞 Spark 开发的同学,多多少少都会遇到这些问题:一个 Action 到底触发了几个 Job?Stage 是怎么划分的?Task 数量又是谁决定的?
尋有緣6 天前
大数据·sql·spark
Spark SQL 调优Spark sql资源调优spark的资源分配粒度最小是container,就是一个executor带的cpu和内存资源。资源的申请和移除都是通过executor进程的增加和减少达成。
十月南城7 天前
数据库·数据仓库·hive·hadoop·spark
实时数据平台的价值链——数据采集、加工、存储、查询与消费的协同效应与ROI评估实时数据平台不是技术的简单堆砌,而是数据从产生到消费的全链路价值优化体系,每一步延迟的降低都在加速商业决策的脉搏
伟大的大威7 天前
分布式·spark·nvidia
NVIDIA DGX Spark (Blackwell GB10) 双机 196B Step 3.5 Flash 大模型部署完整实录本次部署使用两台 NVIDIA DGX Spark 主机,通过直连高速网卡组成 Ray 集群,使用流水线并行(PP=2)将 196B 参数模型拆分到两台机器上运行。
petrel20158 天前
大数据·分布式·spark
【Spark】深度魔改 Spark 源码:打破静态限制,实现真正的运行时动态扩缩容在 Spark 的演进史上,Dynamic Allocation (动态分配) 的出现是一个里程碑。自 Spark 1.2 引入雏形,到 3.0 版本通过 Shuffle Tracking 摆脱对外部 Shuffle Service (ESS) 的强依赖,动态伸缩已成为大数据架构的标配。然而,即便在最新的 Spark 3.x 中,依然存在一个致命伤:Executor 的最大配额(maxExecutors)在 Driver 启动瞬间便被锁定,无法在运行时根据集群波峰波谷实时调整。