spark

鼠鼠我捏,要死了捏1 天前
性能优化·spark·shuffle
Spark Shuffle性能优化实践指南:提升大数据处理效率在大数据场景下,Shuffle是Spark作业中最核心且最容易成为性能瓶颈的环节。合理优化Shuffle不仅能显著降低网络传输和磁盘I/O开销,还能提升整体作业执行效率。本文将从Shuffle的原理入手,结合源码与生产环境实战经验,系统性地分享优化思路与落地策略。
Dragon online2 天前
大数据·数据仓库·分布式·架构·spark·大数据架构·数仓架构
数据仓库深度探索系列:架构选择与体系构建大家好!我们是三倍镜团队,感谢持续关注!《数仓深度探索系列》今日更新啦,带你深入了解数据仓库架构。在上一篇《数据仓库深度探索系列 | 开篇:开启数仓建设新征程》中,我们详细探讨了数据仓库建设的重要性和必要性,从数据仓库的定义、特点、发展历程到其在企业中的关键作用,帮助大家建立了对数据仓库的全面认识。数据仓库不仅是数据存储工具,更是企业信息化战略的核心部分,能够整合数据、支持复杂查询和深度数据分析,推动企业的精细化运营和决策制定。
qinbaby2 天前
spark
pyspark使用要使用PySpark,本地要有Java开发环境。Java 8 : brew install --cask homebrew/cask-versions/adoptopenjdk8
不辉放弃3 天前
大数据·数据库·spark
Spark的累加器(Accumulator)在 PySpark 中,累加器(Accumulator)是一种特殊的共享变量,用于在分布式计算中安全地聚合来自多个 Executor 节点的数据到 Driver 节点。它主要解决了分布式环境下跨节点状态共享的问题,特别适合计数、求和等聚合操作。
梦想养猫开书店3 天前
大数据·分布式·spark
36、spark-measure 源码修改用于数据质量监控sparkMeasure 是一个轻量级的 Spark 插件/工具,用于收集 Spark 作业的执行指标,并以编程或命令行方式输出分析报告。 项目地址:sparkMeasure。
码界筑梦坊4 天前
大数据·python·数据分析·spark·django·numpy·pandas
91-基于Spark的空气质量数据分析可视化系统本项目是一个基于Apache Spark的大数据分析和可视化系统,专门用于空气质量数据的采集、分析、预测和可视化展示。系统采用分布式计算架构,结合机器学习算法,实现了对全国12个主要城市空气质量数据的全面分析和预测功能。
linweidong4 天前
大数据·分布式·spark·spark sql·数据开发·shuffle·数据倾斜
深入剖析 Spark Shuffle 机制:从原理到实战优化Spark 的核心魅力在于它的分布式计算能力,而 Shuffle 作为 Spark 分布式计算的“幕后英雄”,却是最容易被忽视又最容易翻车的环节。简单来说,Shuffle 是 Spark 在处理数据时,将数据从一个节点“洗牌”到另一个节点的过程。
道一云黑板报4 天前
大数据·分布式·spark·流式处理
Spark初探:揭秘速度优势与生态融合实践更多推荐阅读Spark与Flink深度对比:大数据流批一体框架的技术选型指南-CSDN博客LightProxy使用操作手册-CSDN博客
WJ.Polar5 天前
大数据·分布式·spark
Python与SparkSpark用于对海量数据进行分布式计算pyspark是利用Python语言完成Spark任务的第三方包
喻师傅5 天前
大数据·hadoop·分布式·sql·spark
Spark SQL 数组函数合集:array_agg、array_contains、array_sort…详解官网: https://spark.apache.org/docs/latest/api/sql/index.html#array
明天好,会的7 天前
flink·spark·wasm
从Spark/Flink到WASM:流式处理框架的演进与未来展望在流处理技术的演进道路上,我们正站在一个关键的十字路口。传统框架如Flink和Spark Streaming虽然构建了坚不可摧的"技术堡垒",但这座堡垒的维护成本正变得越来越沉重——每次部署都像是在指挥一支交响乐团,需要精确协调JVM参数、集群资源和检查点配置。 与此同时,WASM等新兴技术如同轻骑兵般快速突进,它们用.wasm文件替代了沉重的部署包,用毫秒级冷启动颠覆了传统的资源调度模式。本文将带您深入这个技术演进的战场,剖析传统框架的"技术债务"如何成为创新的绊脚石,以及WASM等新技术如何在性能与便
IvanCodes9 天前
大数据·分布式·spark
三、Spark 运行环境部署:全面掌握四种核心模式作者:IvanCodes 日期:2025年7月25日 专栏:Spark教程Apache Spark 作为统一的大数据分析引擎,以其高性能和灵活性著称。要充分利用Spark的强大能力,首先需要根据不同的应用场景和资源环境,正确地部署其运行环境。本教程将详细指导您如何下载 Spark,并逐步解析和部署其四种核心运行模式。
喻师傅10 天前
大数据·spark
SparkSQL 子查询 IN/NOT IN 对 NULL 值的处理官网:https://spark.apache.org/docs/4.0.0/sql-ref-functions.html
星星妳睡了吗11 天前
大数据·分布式·spark
Spark DataFrame与数据源交互本篇文件将通过spark,完成对数据源的操作数据源 比较长 这里仅仅做个参考,主要是学习整体思路2018-09-04T20:27:31+08:00 http://datacenter.bdqn.cn/logs/user?actionBegin=1536150451540&actionClient=Mozilla%2F5.0+%28Windows+NT+10.0%3B+WOW64%29+AppleWebKit%2F537.36+%28KHTML%2C+like+Gecko%29+Chrome%2F58.0.
神仙别闹11 天前
大数据·分布式·spark
基于Spark图计算的社会网络分析系统Spark 是由加州大学伯克利分校 AMP 实验室所开源的类 Hadoop MapReduce 的通用并行框架,Spark 拥有 Hadoop MapReduce 所具有的优点;但不同于 MapReduce 的是 Job 中间输出结果可以保存在内存中,从而不再需要读写 HDFS, 因此 Spark 能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce 的算法。
IvanCodes11 天前
大数据·spark·scala
二、Spark 开发环境搭建 IDEA + Maven 及 WordCount 案例实战作者:IvanCodes 日期:2025年7月20日 专栏:Spark教程本教程将从零开始,一步步指导您如何在 IntelliJ IDEA 中搭建一个基于 Maven 和 Scala 的 Spark 开发环境,并最终完成经典的 WordCount 案例。
涤生大数据11 天前
大数据·分布式·spark·涤生大数据
从8h到40min的极致并行优化:Spark小数据集UDTF处理的深度实践与原理剖析在大数据领域,Spark以其卓越的并行处理能力著称。但面对小数据集的极致并行需求时,默认优化策略往往成为瓶颈。本文将深入剖析如何通过精准控制分区策略,将仅170条数据的表拆分成170个独立Task并行执行,实现100%的并行度,并详细解释背后的分布式计算原理。
qq_4639448611 天前
sql·ajax·spark
【Spark征服之路-3.7-Spark-SQL核心编程(六)】SparkSQL 提供了通用的保存数据和数据加载的方式。这里的通用指的是使用相同的API,根据不同的参数读取和保存不同格式的数据,SparkSQL 默认读取和保存的文件格式为parquet
青云交13 天前
java·大数据·spark·地质建模·分布式计算·地球物理勘探·地震数据处理
Java 大视界 -- 基于 Java 的大数据分布式计算在地球物理勘探数据处理与地质结构建模中的应用(356)嘿,亲爱的 Java 和 大数据爱好者们,大家好!我是CSDN四榜榜首青云交!《2024 年地球物理勘探技术发展报告》显示,85% 的传统勘探团队面临 “数据处理困境”:单块地震数据体(1000 平方公里)处理需 72 小时,噪声去除率仅 65%,导致储层预测误差超 30%;某油田因三维地质建模滞后 45 天,钻井落空率达 42%,直接经济损失超 2.8 亿元。
qq_4639448613 天前
sql·ajax·spark
【Spark征服之路-3.6-Spark-SQL核心编程(五)】UDF:val sparkConf = new SparkConf().setMaster("local[*]").setAppName("SQLDemo") //创建SparkSession对象 val spark :SparkSession = SparkSession.builder().config(sparkConf).getOrCreate() import spark.implicits._ //读取json文件 val df : DataFrame = spark.read.json("S