技术栈
spark
为儿打call
15 小时前
大数据
·
spark
SparkSQL 广播超时排查:小表但是多分区 = BroadcastTimeout
日常跑批中一个 SparkSQL 任务突然报错失败,该任务之前一直稳定运行。任务逻辑比较见到那,并且涉及的数据量和 SQL 逻辑近期没有变动。
计算机毕业编程指导师
21 小时前
大数据
·
hadoop
·
python
·
计算机
·
spark
·
毕业设计
·
脑卒中
【Python大数据项目推荐】基于Hadoop+Django脑卒中风险分析系统源码解析 毕业设计 选题推荐 毕设选题 数据分析 机器学习 数据挖掘
⭐⭐个人介绍:自己非常喜欢研究技术问题!专业做Java、Python、小程序、安卓、大数据、爬虫、Golang、大屏等实战项目。 ⛽⛽实战项目:有源码或者技术上的问题欢迎在评论区一起讨论交流! ⚡⚡有什么问题可以在主页上或文末下联系咨询博客~~ ⚡⚡Java、Python、小程序、大数据实战项目集](https://blog.csdn.net/2301_80395604/category_12487856.html)
计算机毕业编程指导师
1 天前
大数据
·
hadoop
·
python
·
计算机
·
spark
·
毕业设计
·
电影票房
【大数据毕设推荐】Hadoop+Spark电影票房分析系统,Python+Django全栈实现 毕业设计 选题推荐 毕设选题 数据分析 机器学习 数据挖掘
⭐⭐个人介绍:自己非常喜欢研究技术问题!专业做Java、Python、小程序、安卓、大数据、爬虫、Golang、大屏等实战项目。 ⛽⛽实战项目:有源码或者技术上的问题欢迎在评论区一起讨论交流! ⚡⚡有什么问题可以在主页上或文末下联系咨询博客~~ ⚡⚡Java、Python、小程序、大数据实战项目集](https://blog.csdn.net/2301_80395604/category_12487856.html)
计算机毕业编程指导师
2 天前
hadoop
·
python
·
计算机
·
数据挖掘
·
spark
·
毕业设计
·
卵巢癌
【计算机毕设推荐】Python+Spark卵巢癌风险数据可视化系统完整实现 毕业设计 选题推荐 毕设选题 数据分析 机器学习 数据挖掘
⭐⭐个人介绍:自己非常喜欢研究技术问题!专业做Java、Python、小程序、安卓、大数据、爬虫、Golang、大屏等实战项目。 ⛽⛽实战项目:有源码或者技术上的问题欢迎在评论区一起讨论交流! ⚡⚡有什么问题可以在主页上或文末下联系咨询博客~~ ⚡⚡Java、Python、小程序、大数据实战项目集](https://blog.csdn.net/2301_80395604/category_12487856.html)
极光代码工作室
2 天前
大数据
·
hadoop
·
python
·
数据分析
·
spark
基于大数据的校园消费行为分析系统
随着高校信息化建设的深入推进,校园一卡通、移动支付、智慧后勤等数字化平台持续积累海量消费行为数据。如何从日均百万级交易记录中挖掘学生消费规律、识别异常行为、支撑精准资助与科学管理,已成为教育信息化领域的重要课题。本文设计并实现了一套基于大数据技术的校园消费行为分析系统,融合Hadoop生态(HDFS+Spark)进行分布式数据存储与计算,采用K-means聚类、Apriori关联规则挖掘与LSTM时序预测模型开展多维度分析。系统构建了涵盖消费画像、时空热力、消费预警、群体分群、趋势预测五大功能模块的Web
whuang094
3 天前
spark
腾讯云 emr 无法以cosn 写入云存储
pyspark 中使用 df.write.parquet("cosn://bucketname/file")
howard2005
5 天前
spark
·
项目打包
·
提交运行
2.4.3 集群模式运行Spark项目
本次实战聚焦于在Spark集群环境下运行WordCount项目,完整呈现从项目构建到集群提交的全流程。首先,通过修改pom.xml文件,添加scala-maven-plugin插件并配置编译参数,解决了Maven对Scala代码的识别与编译问题,确保项目能在JDK 8环境下稳定构建。随后,利用Maven的package指令对项目进行打包,生成仅包含项目代码的JAR文件,并上传至集群主节点的/opt目录。
孤雪心殇
5 天前
数据仓库
·
hive
·
spark
快速上手数仓基础知识
传统数据库(OLTP)处理海量数据时耗时过长,当数据量到达TB甚至PB级的时候,MySQL的表现就极差,即使加上索引和分库分表也难以解决这个问题,因为MySQL的B+数本来就针对单点查询,不擅长做全表扫描
渣渣盟
5 天前
javascript
·
ajax
·
spark
Spark 性能调优实战:从开发到生产落地
Spark 是绝大多数大数据平台的主力计算引擎,但在真正的生产环境中,一条 SQL 或一段 DataFrame 代码从“能跑”到“跑得好”,中间隔着一整套理解模型、精细调优的工程实践。本文将从作业执行模型开始,一直深入内存管理、Shuffle 优化、并行度、Join 策略与监控诊断,所有内容均以“可动手、可排错”为目标,并在关键环节附上代码和 Spark UI 截图解读(以文字模拟)。
渣渣盟
6 天前
大数据
·
hadoop
·
python
·
flink
·
spark
大数据技术栈全景图:从零到一的入门路线(深度实战版)
上一篇全景图帮你建立了概念地图,但概念就像地图上的等高线——它告诉你去哪里,却无法让你感受到攀爬时的呼吸。大数据真正的门槛不在于“知道有 Spark、Flink 这些名词”,而在于 “亲手在集群上跑过一个倾斜的 Job,亲眼看到 OOM 日志,然后一步步把执行时间从 2 小时压到 5 分钟” 。本篇博客就是为你准备的攀岩绳和支点:我们将沿着相同的大纲,用代码和实操细节填充每一个核心环节,让知识成为你手指上的肌肉记忆。
DolphinScheduler社区
7 天前
java
·
spark
·
apache
·
海豚调度
·
大数据工作流调度
DolphinScheduler 3.3.2 如何调用 DataX 3.0 + SeaTunnel 2.3.12?附 Demo演示!
在线配置 worker 运行环境,一个 worker 可以指定多个环境,每个环境等价于 dolphinscheduler_env.sh 文件.
Leo.yuan
7 天前
大数据
·
数据仓库
·
spark
数据仓库是什么?数据仓库和大数据平台、数据湖、数据中台、湖仓一体有什么区别?
最近我发现,很多IT同行,有的人都工作五六年了,还是把数据仓库、数据湖、数据中台这几个词混着用。很多人以为自己建的是数据中台,其实底层就是个传统数据仓库。
heiqizero
7 天前
spark
Spark RDD动作算子
仅适用于类型为 (K, V) 的 RDD。返回一个哈希映射(HashMap),其中包含每个键(Key)的计数,格式为 (K, Int) 键值对。 如:wordcount,可以不采用reduceByKey,直接在map(lambda x:(x,1)).countByKey()。返回key的类型+Long的Map
heiqizero
7 天前
spark
Spark RDD转换算子02
groupByKey([numPartitions])groupByKey(Partitioner)当你在一个包含(K,V)对的数据集上调用此方法时,它会返回一个包含(K,Iterable)对的数据集。
heiqizero
8 天前
spark
Spark RDD转换算子01
返回一个新的分布式数据集,该数据集通过将源数据集中的每个元素传递给函数 func 而形成。类似于 map,但允许每个输入元素映射到零个或多个输出元素(所以 func 应当返回一个序列,而非单个元素)。
武子康
11 天前
大数据
·
后端
·
spark
大数据-278 Spark MLib-GBDT梯度提升决策树详解:从原理到实战案例
GBDT 是一种集成学习方法,全称为 梯度提升决策树(Gradient Boosting Decision Tree),属于 Boosting 家族的模型。它通过多个弱学习器(通常是决策树)逐步叠加,不断优化前一次模型的预测误差,从而形成一个强学习器,常用于分类、回归等任务。
武子康
12 天前
大数据
·
后端
·
spark
大数据-277 Spark MLib-梯度提升树(GBDT)算法原理与工程实现指南
梯度提升树(Gradient Boosting)是提升树(Boosting Tree)的一种改进算法,所以在讲梯度提升树之前先来说一下提升树。
jerryinwuhan
12 天前
大数据
·
sql
·
spark
Spark SQL 详细讲义
知识点讲解:Shark 是 Hive on Spark 的实现,它复用了 Hive 的 HQL 解析、逻辑计划优化等模块,只把物理执行计划从 MapReduce 替换成了 Spark RDD 操作。虽然 Shark 的性能比 Hive 提高了 10-100 倍,但存在两个严重问题:
武子康
13 天前
大数据
·
后端
·
spark
大数据-276 Spark MLib-深入理解Bagging与Boosting:集成学习核心算法对比与GBDT实战
● Bagging:对数据进行采样训练 ● Boosting:根据前一轮学习结果调整数据的重要性● Bagging:所有学习器平权投票 ● Boosting:对学习器进行加权投票
weixin_30777913
13 天前
大数据
·
开发语言
·
python
·
spark
SparkPySetup:基于Python的Windows 11 PySpark环境自动化搭建工具
对于Python数据分析师或机器学习爱好者而言,当面对的数据量从几百万行跃升至几十GB甚至TB级时,单机版的Pandas往往会力不从心——内存飙升、程序崩溃、电脑卡死都是常见的“噩梦”。此时,Apache Spark的分布式计算框架便成为救星,而PySpark作为其Python官方API,让开发者能用熟悉的语法无缝调用Spark引擎。