spark

肌肉娃子16 小时前
spark
20260227.spark.Spark 性能刺客:千万别在 for 循环里写 withColumn这是一段非常经典的 Spark 踩坑经历,特别适合写成技术博客记录下来,不仅能帮到未来的自己,也能帮到无数在半夜查 Bug 的数据开发同行。
B站计算机毕业设计超人2 天前
大数据·vue.js·hadoop·python·spark·django·课程设计
计算机毕业设计Django+Vue.js音乐推荐系统 音乐可视化 大数据毕业设计 (源码+文档+PPT+讲解)温馨提示:文末有 CSDN 平台官方提供的学长联系方式的名片!温馨提示:文末有 CSDN 平台官方提供的学长联系方式的名片!
十月南城2 天前
大数据·数据库·数据仓库·hive·hadoop·spark
数据湖技术对比——Iceberg、Hudi、Delta的表格格式与维护策略写在前面,本人目前处于求职中,如有合适内推岗位,请加:lpshiyue 感谢。数据湖表格式不是简单的存储规范,而是元数据管理、事务控制与性能优化的综合体现,决定了数据平台的开放性与成熟度
Asher05092 天前
大数据·架构·spark
Spark核心基础与架构全解析Apache Spark 是一个快速、通用、可扩展的分布式计算引擎,基于Scala语言开发,由加州大学伯克利分校AMP实验室于2010年开源,2013年捐赠给Apache软件基金会,成为顶级开源项目。
FYKJ_20106 天前
java·javascript·spring boot·python·spark·django·php
springboot大学校园论坛管理系统--附源码42669随着信息技术的快速发展,高校校园中的信息交流需求日益增加。传统的管理模式已经难以满足师生对于实时信息共享、互动讨论和校园活动组织的需求,尤其是在学术讨论、校园资讯和社交互动等方面,信息流通不畅和操作复杂成为有待解决的问题。现有的一些校园论坛系统在功能和管理上存在一定的局限性,缺乏灵活性和高效性,难以应对高并发访问、复杂的用户管理和信息内容审核等挑战。因此,设计一个高效、便捷且功能丰富的校园论坛管理系统成为提升校园信息流通与管理效率的迫切需求。
鸿乃江边鸟8 天前
大数据·rust·spark·arrow
Spark Datafusion Comet 向量化Rust Native--Native算子ScanExec以及涉及到的Selection VectorsApache Datafusion Comet 是苹果公司开源的加速Spark运行的向量化项目。 本项目采用了 Spark插件化 + Protobuf + Arrow + DataFusion 架构形式 其中
派可数据BI可视化9 天前
大数据·数据仓库·信息可视化·spark·商业智能bi
一文读懂系列:数据仓库为什么分层,分几层?数仓建模方法有哪些简单来说,数仓分层就像盖楼房,不分层就是盖平房,虽然简单快捷,但无法建成复杂、稳固的高楼大厦数据仓库之父 Bill Inmon对数据仓库做了定义——面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。从定义上来看,数据仓库的关键词为面向主题、集成、稳定、反映历史变化、支持管理决策,而这些关键词的实现就体现在分层架构内。
码字的字节9 天前
大数据·数据仓库·spark
锚点模型:数据仓库中的高度可扩展建模技术详解数据仓库的发展历程可以追溯到上世纪90年代,当时企业开始意识到需要专门的系统来支持决策分析。早期的数据仓库主要采用维度建模方法,其中最具代表性的是星型模型和雪花模型。
数据知道9 天前
hadoop·postgresql·spark
PostgreSQL:详解 PostgreSQL 与Hadoop与Spark的集成在现代数据架构中,PostgreSQL 作为功能强大的 OLTP(在线事务处理)和轻量级 OLAP(在线分析处理)数据库,常需与 Hadoop 生态(HDFS、Hive、HBase)和 Apache Spark(大规模分布式计算引擎)协同工作,以构建完整的 Lambda/Kappa 架构 或 混合事务/分析处理(HTAP)平台。
鸿乃江边鸟11 天前
rust·spark·native
Spark Datafusion Comet 向量化Rust Native--Native算子指标如何传递到Spark UI上展示Apache Datafusion Comet 是苹果公司开源的加速Spark运行的向量化项目。 本项目采用了 Spark插件化 + Protobuf + Arrow + DataFusion 架构形式 其中
uesowys12 天前
算法·spark·kmeans
Apache Spark算法开发指导-K-meansK-means 是一种广泛使用的无监督学习聚类算法,其核心目标是将数据集划分为 K 个簇,使得每个簇内的数据点尽可能相似,而不同簇之间的差异尽可能大。该算法通过迭代优化簇的中心(质心),最小化数据点与其所属簇质心之间的距离平方和,从而实现紧凑且分离度高的聚类效果。
uesowys13 天前
算法·spark
Apache Spark算法开发指导-Gradient-boosted tree regression梯度提升树回归(Gradient-Boosted Tree Regression,简称GBTR)是一种强大的机器学习算法,广泛用于回归任务,通过集成多个决策树逐步优化预测性能。其核心思想是利用前向分步算法,在每一轮迭代中训练一棵新的决策树来拟合当前模型的真实值与预测值之差,从而不断减少整体损失函数。
uesowys14 天前
算法·spark
Apache Spark算法开发指导-Random forest regression随机森林回归(Random Forest Regression)是一种集成机器学习的回归算法,通过构建多个决策树并综合其预测结果,以提高模型的准确性与稳定性。它在处理非线性关系、高维数据和异常值方面表现优异,广泛应用于房价预测、股票价格估计、销售额建模等连续值预测任务中。
DisonTangor14 天前
大数据·gpt·spark
介绍 GPT‑5.3‑Codex‑Sparkhttps://openai.com/index/introducing-gpt-5-3-codex-spark/
小邓睡不饱耶14 天前
hadoop·hdfs·spark
Hadoop 3.x实战:基于HDFS+Spark+Flink的实时用户行为分析平台(含Kerberos安全配置+冷热数据分层)在大数据实时化、安全合规要求升级的当下,传统Hadoop集群面临“实时处理弱、安全防护不足、存储成本高”三大痛点。本文基于 Hadoop 3.3.6(最新稳定版),设计一套“离线批处理+实时流计算”一体化的用户行为分析平台,整合HDFS 3.x、Spark 3.4.1、Flink 1.17.0核心组件,融入Kerberos身份认证、HDFS冷热数据分层、列式存储优化等企业级特性,全程拆解从集群部署到业务落地的完整流程,附关键配置与代码实现,可直接适配电商、短视频等场景的用户行为分析需求。
阿里云大数据AI技术15 天前
spark
阿里云 EMR Serverless Spark TPC-DS 100T 榜首背后的内核技术演讲者:一锤(周克勇)| EMR Serverless Spark 技术负责人2025年9月,阿里云EMR Serverless Spark 以QphDS超6568万分的性能结果成功登顶TPC-DS 100T榜单,这是全球大数据领域最具权威性和挑战性的性能测试基准。
KANGBboy16 天前
大数据·分布式·spark
spark参数优化差异的根源不是count阶段的引擎,而是Spark和 Hive写入时生成的底层文件格式/数量/元数据完全不同 ——Hive写入会生成带「行数元数据」的列式文件,而Spark默认写入的文件要么是Text格式、要么是元数据缺失的列式文件,导致Hive count时无法走元数据优化,只能全量扫描。
十月南城17 天前
大数据·分布式·spark
Spark批处理认知——RDD与DataFrame的差异、Shuffle与资源利用写在前面,本人目前处于求职中,如有合适内推岗位,请加:lpshiyue 感谢。从函数式编程到声明式编程,Spark批处理的演进是分布式计算范式的一次革命性转变
徐先生 @_@|||17 天前
ajax·spark·php
Spark的DataFrame的Map Task和Reduce Task深入理解定义:处理输入数据分区的初始任务,执行map、filter、flatMap等窄依赖转换操作。 【详细的宽窄依赖列举见第三点】