spark

ZPC82108 小时前
大数据·分布式·spark
DGX Spark 200G 跟 100G 设备的通讯协议下面分四层讲:物理层 → 数据链路 / 网络层 → RDMA 传输层 → 应用通信库。不管 200G 还是 100G,L2/L3 完全一样:
南屹川12 小时前
大数据·人工智能·hadoop·flink·spark·数据处理
【大数据】大数据处理技术栈:从采集到分析的完整链路大数据具有以下特征(5V):参考资料:
r-t-H2 天前
spark·kafka·centos·cloudera
从零开始搭建CDH-第十四章首先我们按照第七章的命令启动CM页面,然后我们开始安装Kafka服务。按照图中所示操作即可。选择Kafka服务,点击继续。
zandy10112 天前
大数据·架构·spark
2026 BI平台与数据中台融合架构实践:从数据烟囱到统一智能数据层关于衡石科技(HENGSHI):衡石科技是国内领先的嵌入式AI+BI PaaS平台提供商,其核心产品HENGSHI SENSE以"让数据分析无处不在"为使命,为企业提供从数据连接、数据准备、指标管理、可视化分析到智能问答的全链路BI能力。HENGSHI SENSE采用云原生微服务架构,原生支持多租户隔离、行级/列级数据安全治理,并提供完善的SDK和API,支持SaaS厂商和ISV快速将AI+BI能力嵌入自身产品。截至目前,HENGSHI SENSE已服务零售、金融、制造、教育等多个行业的数百家企业客户,是
zhojiew3 天前
大数据·spark·etl
使用AWS中国区Lambda集成Glue Schema Registry消费Kafka消息的实践本文在 AWS 中国区(cn-north-1)实现 Docker 自建 Kafka 与 AWS Lambda + Glue Schema Registry 的完整集成。Kafka 运行在 EC2 实例上,Lambda 通过 VPC 内网消费消息,使用 Avro 格式进行数据序列化。
r-t-H3 天前
linux·hive·spark·centos·hbase
从零开始搭建CDH-第十二章在开始安装spark服务之前,我们需要关闭部分服务,因为我们是单独的笔记本并不是真实的计算机集群,可能出现内存不够的情况,我们选择关闭hbase和phoenix服务。
zhojiew4 天前
大数据·spark·etl
部署DataHub并导入Glue元数据以集成DBT和Spark ETL任务中数据血缘的实践在现代数据架构中,数据血缘(Data Lineage)已经成为数据治理的核心能力。它帮助数据工程师追踪数据从源头到终点的完整流转路径,理解数据 transformations,识别数据质量问题的影响范围。LinkedIn 开源的 DataHub 是第三代数据目录平台的代表,它采用流式架构实现实时元数据管理,能够与 AWS Glue 和 dbt 无缝集成,构建完整的数据血缘图谱。
WL_Aurora4 天前
大数据·前端·spark·rdd
大数据技术之SparkCoreSpark Core 是整个 Spark 生态的基石,提供了最基础与最核心的功能。理解 Spark Core,是掌握 Spark SQL、Spark Streaming、MLlib 等上层组件的前提。本文将系统讲解 RDD 编程模型、转换算子与行动算子、RDD 序列化、依赖关系、持久化机制,以及累加器和广播变量 等核心概念。
WL_Aurora4 天前
spark·scala
Scala核心编程(一):Scala语言概述与快速入门在大数据领域,Apache Spark 是新一代内存级大数据计算框架,是大数据技术栈中最重要的内容之一。而Spark本身就是使用Scala编写的,因此想要深入理解和高效使用Spark,掌握Scala这门语言是必不可少的。
曾阿伦4 天前
spark
Spark2 序列化解析:JavaSerializer vs KryoSerializer分布式计算中,Spark 需频繁在 Driver 与 Executor 间传输数据(如 Shuffle 过程),且需将数据序列化后存储在内存 / 磁盘中。序列化的效率直接决定了:
KaMeidebaby5 天前
大数据·前端·其他·百度·架构·spark·新浪微博
卡梅德生物技术快报|适配体筛选技术架构演进:SPARK-seq 高通量平台原理与技术流程解析在生物信息学、核酸分子工程与单细胞测序交叉领域,适配体筛选是开发核酸探针、分子识别元件的核心基础环节。传统 SELEX 系列筛选技术存在流程冗长、通量偏低、验证链路割裂等工程化缺陷,无法适配大规模并行筛选与动力学参数高通量解析需求。适配体筛选技术的架构升级,成为化学生物学与生物信息交叉研发的重要方向。而 SPARK-seq 平台通过多技术融合重构底层研发架构,为适配体筛选提供了单细胞、高通量、智能化的全新工程化方案。
元拓数智5 天前
大数据·分布式·ai·spark·数据关系·语义治理
智能分析落地卡壳?先补好「数据关系+语义治理」这层技术基建不少企业在布局智能分析时,第一优先级往往是对接大模型、快速上线自然语言问答(NLQ)入口,期待一步实现“用说话替代写SQL”的高效分析。但落地后却频频遭遇尴尬:用户问“上月核心业务营收”,模型返回的数据和财务报表差了20%;跨部门问同一个“活跃用户”指标,得到的结果完全不同;甚至模型答非所问,把“用户留存率”解释成了“新增用户占比”。
QQ12958455046 天前
数据仓库·spark·excel
FERP50 - Excel以存储过程方式访问数据仓库FERP50数据仓库升级之后,为进行权限管理,对外只提供存储过程访问方式,若通过Excel访问,菜单获取外部数据-自其他来源-来自SQL Server中只能使用表,而不能使用存储过程。
旺仔Sec6 天前
大数据·分布式·spark
Spark 从入门到部署:核心模块解析与 Yarn 模式实战指南摘要:本文系统介绍了Apache Spark大数据计算引擎的核心模块(Spark Core、Spark SQL、Spark Streaming、Spark MLlib、Spark GraphX)及其功能,并详细讲解了Spark的三种安装模式:本地模式、Standalone模式和Yarn模式。重点以Yarn模式为例,演示了从解压缩、配置文件修改、Hadoop集群启动到应用提交的完整部署流程,并配置了历史服务器以记录任务运行情况。
weixin_553654488 天前
大数据·人工智能·分布式·spark
如何看待 2026 年 Google I/O 大会发布的 Gemini Spark?作为一名常年泡在硅谷、和各种大模型API死磕的技术老炮,我熬夜看完了 2026 年的 Google I/O 大会。说实话,过去几年各大厂的发布会早就让人审美疲劳了,不是卷上下文长度,就是卷多模态的响应速度。
您^_^9 天前
大数据·分布式·spark·claudecode·claude code全栈
专家(二):Claude Code 数据工程实战:dbt + Airflow + Spark 全流程,$0.22 搭完电商分析管道Windows 10/11 · Claude Code v2.1.32+ · DeepSeek V4 Pro / Anthropic API · 🟡 中度时效 · 最后更新 2026-05-18
zhojiew10 天前
大数据·spark
在EMR集群中使用Spark MCP服务构建Strands Agent进行故障排查的实践本文基于 AWS Strands SDK + MCP Server + EMR 构建 AI 驱动的 Spark 故障排查系统,总体架构如下
大江东去浪淘尽千古风流人物10 天前
人工智能·深度学习·架构·spark·机器人·transformer·wm
【SANA-WM】分钟级世界模型:混合线性扩散Transformer与双分支相机控制深度解析SANA-WM,英伟达SANA系列新进展,2.6B开源世界模型,可以在单个GPU上将一张图像和一条相机轨迹转换为720p、时长一分钟、可控的视频,36倍更高吞吐
蓝眸少年CY11 天前
大数据·分布式·spark
Spark - Code 核心教程Spark 是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。官网地址https://spark.apache.org/
随缘而动,随遇而安12 天前
大数据·spark·token·cookie·session
第九十八篇 工程落地视角:Session/Cookie/Token 原理辨析与大数据实战从“记住我”这一行代码,到数仓里百亿行日志的会话还原—— 你缺的不是又一门认证课,而是一套白话说得通、代码跑得动、坑里踩得实的技术路线。