大数据

阿里云大数据AI技术9 小时前
大数据·人工智能
StarRocks x Fluss x Paimon湖流一体方案:构建秒级响应、湖流一体的实时数据引擎StarRocks x Fluss x Paimon 湖流一体方案通过将 Apache Fluss(面向分析场景的实时流存储)与 Apache Paimon(高性能湖格式表)深度融合,以 StarRocks 作为统一查询入口,构建了一套具备秒级新鲜度、十倍成本降低、一份数据一次查询的全新实时数据引擎。本文将介绍该方案的核心架构、技术优势、查询模式以及在阿里云 EMR Serverless StarRocks 上的产品化落地。
Databend10 小时前
大数据·数据库·agent
Agent 轨迹分析与归因的数据工程实践活动时间:2026 年 6 月 18 日(周四) 演讲实录:智能纪要:databend社区活动 2026年6月18日 PPT:www.bohutang.me/talks/2026-…
喵个咪11 小时前
大数据·后端·go
Go Wind UBA 拆解系列 - 架构总览:三服务、数据流与契约优先本文回答一个问题:当一个用户行为从浏览器发出,到最终在 Vue 看板上变成一条留存曲线,中间经过了哪些服务、哪些代码、哪些取舍?
喵个咪11 小时前
大数据·后端·go
Go Wind UBA 拆解系列 - 多租户与安全:两套隔离机制的边界本文回答一个问题:一个 SaaS 级 UBA 平台,怎么保证租户 A 绝对看不到租户 B 的数据? 答案藏在两层完全不同的机制里——而它们的边界差异,恰恰是最值得讲的部分。
喵个咪11 小时前
大数据·后端·go
Go Wind UBA 拆解系列 - OLAP 与 SQL 硬核:25 个分析模型怎么落地本文回答一个问题:25 个分析模型(漏斗 / 留存 / LTV / 归因 / 路径……)在 ClickHouse 和 Doris 上,到底是用什么 SQL 写出来的?双引擎又是怎么做到"一份业务模型,两份实现"的?
喵个咪11 小时前
大数据·后端·go
Go Wind UBA 拆解系列 - SDK 与采集层:从浏览器到 Kafka本文回答一个问题:一个埋点事件,从用户在浏览器里点了一下,到最终被 Kafka 接住,中间的 SDK 和 Collector 做了多少你看不见的工程? 答案是:比你想象的多得多。
QCC产品中心15 小时前
大数据·mcp·金融/非金融
MiniMax Agent 接入实测:企业查询、股权穿透与 UBO 识别(附 Prompt 模板)导读:MiniMax Agent 金融场景已正式接入企查查 MCP 企业基座(qcc-company Server),覆盖 4 亿+ 市场主体结构化数据。本文记录投研初筛、UBO 合规穿透、关联网络梳理三个金融高频场景的实测过程,每个场景附完整 Prompt 模板和工具调用链路,开发者可直接复用。
SelectDB1 天前
大数据·数据库·python
Apache Doris Python UDF:让 SQL 直接调用 Python 生态,支撑 Agent 时代复杂业务逻辑随着 AI 应用和实时分析场景深入,进入数据平台的不再只是结构化业务表。日志、JSON、文本内容、行为事件、模型推理结果等半结构化和非结构化数据,正在成为实时分析的常见对象。
ApacheSeaTunnel1 天前
大数据·开源·数据集成·seatunnel·技术分享·数据同步
当多表数据涌入,Apache SeaTunnel 如何巧妙化解主键冲突?点亮Star!https://github.com/apache/seatunnel来源 | 数仓生态圈
大大大大晴天4 天前
大数据
Hudi Metadata Table 与 Hive Sync (HMS)怎么选?在很多Hudi的读写使用场景中,我们都会将Hudi的元数据同步给HMS进行Hive/Hudi元数据统一存储管理,以至于很多人混淆Hudi Metadata Table 与 Hive Sync (HMS)的概念与关系,认为保留一个就行。
手可摘星辰7775 天前
大数据·flink
一次线上FlinkCDC异常排查复盘任务架构: MySQL (Master/Slave) -> FlinkCDC (3.3.0) -> Flink TaskManager -> Paimon (On HDFS)
大大大大晴天5 天前
大数据
Hudi技术内幕:Metadata Table原理与实践Hudi 的 Metadata Table(元数据表)是 Hudi 0.11 版本引入、并在 1.x 版本中逐步成熟的核心基建。它通过将文件列表、列统计信息、布隆过滤器等元数据以 Hudi MOR 表的形式进行本地化管理,从根本上消除了对云存储(如 S3、HDFS)list files操作的高频依赖,显著提升了查询规划(Query Planning)速度和写入效率。
大大大大晴天6 天前
大数据
Hudi技术内幕:深入解析Index索引机制Apache Hudi 的核心竞争力之一在于对数据的高效 Upsert(更新/插入)能力,而 Index(索引)正是支撑这一能力的关键,索引的本质使命是:在写入时快速定位一条记录是否已存在,以及存在于哪个文件中,从而避免全表扫描。
阿里云大数据AI技术6 天前
大数据·flink
Flink Forward Asia 2026 深圳启幕:Agentic Streaming for AI,开启实时智能新范式6 月 26 日,由 Apache 软件基金会(Apache Software Foundation)官方授权,阿里云主办的社区年度技术盛会 Flink Forward Asia (FFA)2026在深圳正式拉开帷幕。本届大会以"实时数据,智能未来"为主题,吸引了来自全球的开发者、数据工程师、AI 从业者及行业领袖齐聚鹏城,共同见证实时计算技术迈入 AI Native 新纪元的关键时刻。
SelectDB6 天前
大数据·数据库·aigc
阶跃星辰基于 SelectDB 构建 PB 级 Agent 可观测平台导读:在 SelectDB AI 产品发布会上,阶跃星辰可观测性专家 Ric 分享了 Agent 不确定性带来的可观测性挑战,为什么选择 SelectDB 作为 Agent 可观测平台 StepTrace 的数据底座,获得 Agent Trace 实时写入、全文检索、成本和延迟分析等方面的优势,并在 SWE-Agent 代码评测与智能座舱两个真实场景中落地。
大大大大晴天10 天前
大数据
Hudi技术内幕:RecordPayload到RecordMergerHudi 作为数据湖领域的核心组件,其 Record Payload 机制是实现数据增量处理、去重合并的关键抽象,它定义了当新旧记录发生冲突时,如何决定最终保留哪条数据、如何合并字段。
SelectDB10 天前
大数据·后端·云原生
秒级弹性、最高降本 70%:SelectDB Serverless 如何重塑云数仓资源效率过去十年,数仓从"上云"走向"云原生"。然而在资源管理层面,一个根本性矛盾依然存在:业务负载具有波动性,而资源规格通常只能依据峰值提前锁定。
WhoAmI10 天前
大数据·hadoop
MapReduce框架原理解析一:InputFormat在大数据处理的宏大叙事中,MapReduce 无疑是那个开启了时代篇章的经典模型。它将复杂的并行计算抽象为“Map(映射)”和“Reduce(归约)”两个核心阶段,让开发者能够专注于业务逻辑本身,而无需深陷于分布式系统的复杂性泥潭。然而,一个 MapReduce 作业的成功启动,并非始于 Mapper 的第一行代码,而是源于对输入数据的精准规划与读取。这正是 InputFormat 大显身威的舞台。
WhoAmI10 天前
大数据·hadoop
MapReduce框架原理解析三:OutputFormat在 MapReduce 框架中,数据如何被写入到文件系统,是由 OutputFormat 组件决定的。它是 MapReduce 数据处理流水线的最后一环,负责将 Reduce 阶段(或 Map 阶段,如果没有 Reduce)产生的结果数据,按照指定的格式和路径写入到HDFS或其他存储系统中。
WhoAmI10 天前
大数据·hadoop
MapReduce框架原理解析二:Shuffle在 MapReduce 的宏大叙事中,如果说 Map 是“分”的智慧,Reduce 是“合”的艺术,那么连接这两者的 Shuffle 过程,就是那根穿针引线的“金线”。