spark

武子康2 天前
大数据·后端·spark
大数据-270 Spark MLib-机器学习库快速入门(分类/回归/聚类/推荐)SparkMLib 是Spark的机器学习库(Machine Learning),封装了一些通用机器学习算法和工具,便于我们开展机器学习实践。 具体来说,SparkMLib 主要包括以下几块内容:
DolphinScheduler社区2 天前
大数据·flink·spark·开源·apache·海豚调度·大数据工作流调度
第 8 篇|Apache DolphinScheduler 与 Flink Spark 数据引擎的边界、协同与最佳实践在数据平台不断演进的过程中,一个非常常见但又隐蔽的误区是:团队会不自觉地让调度系统承担越来越多“本不属于它”的职责,比如在调度层写复杂业务逻辑、控制计算参数,甚至试图统一管理不同计算引擎的执行细节。短期来看似乎提升了效率,但从长期来看,这种设计往往会让系统变得高度耦合、难以维护,甚至在规模上来之后失去稳定性。
黄焖鸡能干四碗2 天前
大数据·运维·网络·分布式·spark
企业元数据梳理和元数据管理方案(PPT方案)元数据(Metadata)是描述数据本身特征和属性的结构化信息,通俗来讲,若将数据仓库比作一座城市,元数据就是这座城市的“导航地图”,能帮助我们快速理解、定位和导航数据仓库中的各类数据组件。
木心术12 天前
大数据·hadoop·分布式·spark
大数据处理技术:Hadoop与Spark核心原理解析在数据量以ZB为单位激增的2024-2025年,企业对数据处理的需求从"能处理"升级为"高效、实时、灵活"。Hadoop与Spark作为大数据领域的两大支柱技术,各自承载着不同的技术使命。本文将深入剖析两者的核心原理、架构设计、性能特征及演进趋势,帮助技术决策者掌握选型方法论。
talen_hx2963 天前
笔记·学习·spark
《零基础入门Spark》学习笔记 Day 16模型训练-上机器学习问题可以分为监督学习与非监督学习。按使用场景不同,监督学习分为回归、分类和协同过滤;而非监督学习分为聚类与频繁项集。
我要用代码向我喜欢的女孩表白4 天前
大数据·分布式·spark
在spark集群上在部署一套spark环境,不要影响过去环境为啥呢?有这种需求,比如舍不得开资源。A工具,需要spark环境,但是A是spark3.1,B工具,需要spark环境,但是B是spark3.4。那这样咋搞,于是就有了这种情况。 首先复制新的过来
新缸中之脑4 天前
大数据·分布式·spark
Meta新模型Muse Spark上手体验Meta发布了Muse Spark,这是他们自Llama 4几乎整整一年前以来的首个模型发布。它是托管的,不是开放权重,API目前"仅向选定用户开放私人预览",但你今天就可以在meta.ai上试用(需要Facebook或Instagram登录)。
Thomas21434 天前
大数据·分布式·spark
pyspark 新接口 DataSource V2 写法 写入paimon为例动态覆盖的分区表 且表可能不存在
howard20055 天前
spark·standalone集群
2.2.3.1 搭建Spark集群本次实战演示如何搭建Spark独立集群,采用经典的主从架构。内容涵盖两种提交方式:客户端模式(驱动程序在本地运行)和集群模式(驱动程序在集群节点上运行)。搭建过程包括前置条件准备(JDK、Hadoop、Hive配置)、下载解压Spark安装包、配置环境变量和spark-env.sh文件(设置JAVA_HOME、SPARK_MASTER_HOST、SPARK_MASTER_PORT等参数)、编辑workers文件指定集群节点,以及通过scp命令将Spark分发到各个从节点。整个流程强调了跨节点的统一配置,确
isNotNullX5 天前
大数据·分布式·spark
数据仓库是什么?怎么搭建数据仓库?我们每天都在跟数据打交道,但提到数据仓库这个词,大多数人的第一反应还是——听说过,但说不清到底是什么。
AI自动化工坊7 天前
大数据·人工智能·架构·spark
Meta Muse Spark技术深度解析:原生多模态推理架构实践指南AI领域的创新速度正在加快,但真正的突破往往来自于架构创新而非参数增加。Meta Superintelligence Labs在Alexandr Wang加入后,发布了首个重量级AI模型:Meta Muse Spark。这是一个真正的原生多模态推理系统,代表了AI架构的重要演进方向。
talen_hx2967 天前
大数据·笔记·学习·spark
《零基础入门Spark》学习笔记 Day 15用来处理数值型字段的,离散化可以把原本连续的数值打散,从而降低原始数据的多样性。离散化的动机,主要在于提升特征数据的区分度与内聚性,从而与预测标的生产更强的关联。
talen_hx2968 天前
大数据·笔记·学习·spark
《零基础入门Spark》学习笔记 Day 14特征工程是机器学习流程中至关重要的环节,旨在通过数据转换、组合或创建新特征,提升模型性能。其核心目标包括提高数据质量、增强特征与目标变量的相关性,以及降低计算复杂度。
xiaoyaohou118 天前
sql·ajax·spark
025、分布式计算实战:Spark Core与Spark SQL从一次深夜调试说起上周三凌晨两点,集群告警突然响了。一个跑了六小时的Spark作业卡在99%,最后一个stage的200个task里总有那么三五个一直在挣扎。日志里满是FetchFailedException和ExecutorLost的报错,数据倾斜那熟悉的味道隔着屏幕都能闻到。这种场景你肯定也遇到过——数据分布不均匀,少数几个key扛了几千万条记录,几个倒霉的executor内存直接撑爆。今天我们就聊聊怎么用Spark Core和Spark SQL解决这类实战问题。
xiaoyaohou118 天前
大数据·hadoop·spark
024、大数据技术栈概览:Hadoop、Spark与Flink排查一个线上问题,集群凌晨ETL任务突然卡住,日志里反复报“No space left on device”。查了半天发现不是磁盘满,而是HDFS的DataNode线程池耗尽——某个MapReduce任务开了上千个Mapper,把节点拖垮了。这事儿让我重新审视团队的技术栈选型:我们是否还在用“大炮打蚊子”?今天聊聊Hadoop、Spark、Flink这三个老伙计,它们不只是技术选项,更是不同数据处理哲学的体现。
2501_948114248 天前
大数据·架构·spark
Muse Spark 闭源转型背后的系统化演进:PAO 架构、KV Cache 压缩与聚合接入实践摘要: Meta 推动 Muse Spark 走向闭源并非一时兴起,其底层所采用的并联智能体协调架构(PAO)标志着大模型由单体推理向系统级协同的跃迁。本文将围绕 Transformer 变体设计、节点调度策略、KV Cache 压缩算法及生产环境调用方案四个维度,对 Muse Spark 进行深入剖析,并探讨开发者在高并发场景下如何借助聚合通道实现高效接入。
薛定猫AI8 天前
大数据·分布式·spark
【深度解析】Meta Muse Spark:原生多模态推理模型与多智能体编排的工程化实践本文基于 Meta 最新 Muse Spark 模型的技术细节与实测表现,系统拆解其原生多模态推理、工具调用、多智能体编排(“沉思模式”)等核心能力,并结合实际工程场景,给出基于兼容 OpenAI 协议平台薛定猫 AI(xuedingmao.com)的完整 Python 调用示例,帮助开发者快速将 Muse Spark 同类前沿模型集成到业务系统中。
Henb9298 天前
大数据·ajax·spark
# Spark 内核级调优源码分析我们团队在 2022 年遇到的瓶颈:结论: 常规参数调优已触达天花板,必须深入内核理解本质。我们的实测收益:
xiaoyaohou118 天前
spark·kafka·linq
026、流式计算:Kafka与Spark Streaming实时处理上周四凌晨两点,手机突然震个不停。监控系统告警:实时推荐引擎的数据流水线延迟超过15分钟。打开监控面板,Kafka消费者组的lag曲线像爬山一样往上窜,Spark Streaming的批处理时间已经超过窗口间隔。这不是第一次了,但这次特别棘手——业务方要求99.9%的消息必须在5秒内处理完毕。
chaofan9809 天前
大数据·架构·spark
Meta Muse Spark 深度解构:并联智能体架构与开发者接入实战指南摘要: Meta 放弃开源转向闭源的 Muse Spark 并非心血来潮,其背后的“并联智能体协调(PAO)”架构代表了大模型从单体逻辑向系统逻辑的进化。本文将从底层 Transformer 变体原理、节点路由机制、KV Cache 量化策略以及 API 生产环境实战四个维度,深度拆解 Muse Spark,并探讨开发者如何在高并发环境下利用聚合平台实现最优调用。