大数据

SelectDB8 小时前
大数据·数据库·python
Apache Doris Python UDF:让 SQL 直接调用 Python 生态,支撑 Agent 时代复杂业务逻辑随着 AI 应用和实时分析场景深入,进入数据平台的不再只是结构化业务表。日志、JSON、文本内容、行为事件、模型推理结果等半结构化和非结构化数据,正在成为实时分析的常见对象。
ApacheSeaTunnel11 小时前
大数据·开源·数据集成·seatunnel·技术分享·数据同步
当多表数据涌入,Apache SeaTunnel 如何巧妙化解主键冲突?点亮Star!https://github.com/apache/seatunnel来源 | 数仓生态圈
大大大大晴天3 天前
大数据
Hudi Metadata Table 与 Hive Sync (HMS)怎么选?在很多Hudi的读写使用场景中,我们都会将Hudi的元数据同步给HMS进行Hive/Hudi元数据统一存储管理,以至于很多人混淆Hudi Metadata Table 与 Hive Sync (HMS)的概念与关系,认为保留一个就行。
手可摘星辰7774 天前
大数据·flink
一次线上FlinkCDC异常排查复盘任务架构: MySQL (Master/Slave) -> FlinkCDC (3.3.0) -> Flink TaskManager -> Paimon (On HDFS)
大大大大晴天4 天前
大数据
Hudi技术内幕:Metadata Table原理与实践Hudi 的 Metadata Table(元数据表)是 Hudi 0.11 版本引入、并在 1.x 版本中逐步成熟的核心基建。它通过将文件列表、列统计信息、布隆过滤器等元数据以 Hudi MOR 表的形式进行本地化管理,从根本上消除了对云存储(如 S3、HDFS)list files操作的高频依赖,显著提升了查询规划(Query Planning)速度和写入效率。
大大大大晴天5 天前
大数据
Hudi技术内幕:深入解析Index索引机制Apache Hudi 的核心竞争力之一在于对数据的高效 Upsert(更新/插入)能力,而 Index(索引)正是支撑这一能力的关键,索引的本质使命是:在写入时快速定位一条记录是否已存在,以及存在于哪个文件中,从而避免全表扫描。
阿里云大数据AI技术5 天前
大数据·flink
Flink Forward Asia 2026 深圳启幕:Agentic Streaming for AI,开启实时智能新范式6 月 26 日,由 Apache 软件基金会(Apache Software Foundation)官方授权,阿里云主办的社区年度技术盛会 Flink Forward Asia (FFA)2026在深圳正式拉开帷幕。本届大会以"实时数据,智能未来"为主题,吸引了来自全球的开发者、数据工程师、AI 从业者及行业领袖齐聚鹏城,共同见证实时计算技术迈入 AI Native 新纪元的关键时刻。
SelectDB5 天前
大数据·数据库·aigc
阶跃星辰基于 SelectDB 构建 PB 级 Agent 可观测平台导读:在 SelectDB AI 产品发布会上,阶跃星辰可观测性专家 Ric 分享了 Agent 不确定性带来的可观测性挑战,为什么选择 SelectDB 作为 Agent 可观测平台 StepTrace 的数据底座,获得 Agent Trace 实时写入、全文检索、成本和延迟分析等方面的优势,并在 SWE-Agent 代码评测与智能座舱两个真实场景中落地。
大大大大晴天9 天前
大数据
Hudi技术内幕:RecordPayload到RecordMergerHudi 作为数据湖领域的核心组件,其 Record Payload 机制是实现数据增量处理、去重合并的关键抽象,它定义了当新旧记录发生冲突时,如何决定最终保留哪条数据、如何合并字段。
SelectDB9 天前
大数据·后端·云原生
秒级弹性、最高降本 70%:SelectDB Serverless 如何重塑云数仓资源效率过去十年,数仓从"上云"走向"云原生"。然而在资源管理层面,一个根本性矛盾依然存在:业务负载具有波动性,而资源规格通常只能依据峰值提前锁定。
WhoAmI9 天前
大数据·hadoop
MapReduce框架原理解析一:InputFormat在大数据处理的宏大叙事中,MapReduce 无疑是那个开启了时代篇章的经典模型。它将复杂的并行计算抽象为“Map(映射)”和“Reduce(归约)”两个核心阶段,让开发者能够专注于业务逻辑本身,而无需深陷于分布式系统的复杂性泥潭。然而,一个 MapReduce 作业的成功启动,并非始于 Mapper 的第一行代码,而是源于对输入数据的精准规划与读取。这正是 InputFormat 大显身威的舞台。
WhoAmI9 天前
大数据·hadoop
MapReduce框架原理解析三:OutputFormat在 MapReduce 框架中,数据如何被写入到文件系统,是由 OutputFormat 组件决定的。它是 MapReduce 数据处理流水线的最后一环,负责将 Reduce 阶段(或 Map 阶段,如果没有 Reduce)产生的结果数据,按照指定的格式和路径写入到HDFS或其他存储系统中。
WhoAmI9 天前
大数据·hadoop
MapReduce框架原理解析二:Shuffle在 MapReduce 的宏大叙事中,如果说 Map 是“分”的智慧,Reduce 是“合”的艺术,那么连接这两者的 Shuffle 过程,就是那根穿针引线的“金线”。
大大大大晴天10 天前
大数据
Hudi技术内幕:Key Generation原理与实践Key Generation(键生成)是 Apache Hudi 数据湖表的核心机制之一,它决定了每条记录如何被唯一标识(Record Key)以及如何被路由到正确的分区(Partition Path)。这一机制直接影响着数据的去重、更新、索引效率以及查询性能,本文将系统性地介绍 Hudi 中 Key Generation 的工作机制、各类型 KeyGenerator 以及生产实践。
得物技术14 天前
大数据·llm·ai编程
从埋点需求到规则资产:Hermes Agent 重构得物数仓工作流在埋点和指标需求里,最消耗数据承接方的往往是 把分散的信息重新拼起来:需求文档里的动作到底要不要采集,历史上有没有类似点位,指标口径有没有被下游使用,新增字段要改哪几层表,发布前又该由谁确认。 我们选择Hermes Agent而不是OpenClaw是因为它具备持续在线、持久记忆和技能沉淀能力。对数据团队来说,下面几个原生能力正好对准了这类流程痛点:
久美子14 天前
大数据
AI驱动数仓建设的Harness工程实践——本体建模、知识分层与上下文工程NC65,5312张表,179个模块。字段名长这样:cinvoicecustid、fstatusflag、nsummny。你让Claude Code来建DWD层,它连哪张表存销售额都找不到。
大树8814 天前
大数据·运维·服务器·人工智能·ai
金刚石散热越强,管路越先见顶最近朋友圈被刷屏了——台积电选了金刚石,英伟达也跟进,标题清一色写着「金刚石替代液冷」。我看完的第一反应是:写这标题的人,大概没算过一道乘法。
大志哥12314 天前
大数据·elasticsearch
ES和Logstash日志链路系统上线后遭遇切片爆炸(解决)日志链路系统无法查到新的日志,检查logstash:根据以上报错信息现有logstash配置:pipelines.yml、pipeline.conf、sql.conf
AI_yangxi15 天前
大数据·人工智能·矩阵
短视频矩阵系统专业公司在流量红利见顶、获客成本高企的当下,短视频矩阵系统已成为企业实现规模化获客的核心基础设施。然而,市面上的服务商多如牛毛,从头部大厂到垂直新锐,产品功能与落地效果参差不齐。本文将从技术实力、场景落地效率、成本控制与安全风控四个维度,对当前主流的几家专业公司进行深度对比,为企业选型提供一份客观参考。
CHENG-JustDoIt15 天前
大数据·人工智能·windows·python·ai·开源·github
AI工具 | 爆火开源项目Odysseus AI 工作台:从项目介绍、部署情况及其使用等多方位分析指南(含详细步骤)2026年5月31日,全球拥有超过1.1亿YouTube订阅者的顶流博主 PewDiePie(Felix Kjellberg)在 GitHub 上悄然开源了一个项目。没有发布会、没有营销稿,README 只有一句话:“Odysseus is a self-hosted workspace with powerful local tools”。