大数据

代码匠心18 小时前
大数据·flink·flink sql·大数据处理
从零开始学Flink:Flink SQL四大Join解析在上一篇 《从零开始学Flink:实时数仓与维表时态Join实战》 中,我们通过引入 Hive Catalog,解决了 Flink SQL 元数据管理的痛点。
武子康2 天前
大数据·后端·apache hive
大数据-242 离线数仓 - DataX 实战:MySQL 全量/增量导入 HDFS + Hive 分区(离线数仓 ODS已经确定的事情:DataX、导出7张表的数据。 MySQL导出:全量导出、增量导出(导出前一天的数据)
SelectDB3 天前
大数据·agent·mcp
易车 × Apache Doris:构建湖仓一体新架构,加速 AI 业务融合实践导读:易车引入 Apache Doris 取得以下核心成果:数据的爆发式增长与业务对实时性的极致追求,驱动易车技术团队在实时湖仓建设上持续探索。目前易车已基于 Apache Doris + Paimon + Hive 构建了湖仓一体化数据平台,实现架构收敛统一:逐步替换 Druid、Kudu、HBase、MongoDB、ClickHouse 等近 10 种引擎。 广泛应用于实时多维分析、用户画像及标签体系、BI 报表(实时报表、仪表盘)等核心场景。在此基础上,团队进一步探索 Apache Doris +
武子康3 天前
大数据·后端·mysql
大数据-241 离线数仓 - 实战:电商核心交易数据模型与 MySQL 源表设计(订单/商品/品类/店铺/支付)电商系统业务中最关键的业务,电商的运营活动都是围绕这个主题展开。 选取的指标包括:订单数、商品数、支付金额,对这些指标按销售区域、商品类型分析。
IvanCodes3 天前
大数据·后端·kafka
一、消息队列理论基础与Kafka架构价值解析假设我们正在开发一个核心的电商交易平台。在最原始的单体架构或早期的微服务架构中,订单微服务创建完一条新订单后,需要通过网络接口直接调用库存系统扣减商品、调用积分系统增加用户成长值,并且调用物流系统生成运单。
武子康4 天前
大数据·后端·apache hive
大数据-240 离线数仓 - 广告业务 Hive ADS 实战:DataX 将 HDFS 分区表导出到 MySQL执行结果如下图所示: 查看Hive中的数据:运行结果如下图所示: 继续导入其他数据:最终的Hive的数据量如下所示:
字节跳动数据平台5 天前
大数据
5000 字技术向拆解 | 火山引擎多模态数据湖如何释放模思智能的算法生产力一模思智能公司与业务场景介绍模思智能科技有限公司(MOSI Intelligence,下文简称模思)是一家由上海创智学院孵化,专注于深度情境智能的大模型初创公司。模思公司成立于 2024 年,核心创始团队以复旦大学自然语言处理实验室 MOSS 团队为核心组建,并由人工智能领域的知名学者,复旦大学邱锡鹏教授担任首席科学家。
武子康5 天前
大数据·后端·apache hive
大数据-239 离线数仓 - 广告业务实战:Flume 导入日志到 HDFS,并完成 Hive ODS/DWD 分层加载Flume 是一个分布式、可靠且可扩展的系统,用于收集、聚合和传输大量日志数据。它常用于从各种数据源(例如日志文件、应用程序、系统等)收集数据并将其传输到 Hadoop 生态系统(例如 HDFS、Hive、HBase 等)进行进一步处理。Flume 主要由多个组件构成,其中 Flume Agent 是核心的执行单元。
字节跳动数据平台6 天前
大数据
代码量减少 70%、GPU 利用率达 95%:火山引擎多模态数据湖如何释放模思智能的算法生产力在大模型技术竞速的下半场,行业注意力正从单一的算法迭代转向更深层的基础设施建设。如何处理千万小时、PB级的多模态训练数据,并实现高效处理与弹性扩展, 已成为 AI 企业构建长期竞争力的核心课题。
得物技术6 天前
大数据·后端·spark
深入剖析Spark UI界面:参数与界面详解|得物技术Spark UI是Apache Spark内置的Web监控界面,为开发者和运维人员提供对Spark应用程序执行过程的实时、可视化洞察。它以直观的方式展示作业(Jobs)、阶段(Stages)、任务(Tasks)、SQL执行计划、Executor资源使用、存储状态及运行时环境等关键信息。通过Spark UI,用户可以快速定位性能瓶颈(如数据倾斜、Shuffle 开销、调度延迟)、分析执行计划、监控资源利用率,并进行有效的调优与故障排查。无论是开发调试还是生产运维,Spark UI都是理解和优化Spark应用
武子康6 天前
大数据·后端·apache hive
大数据-238 离线数仓 - 广告业务 Hive分析实战:ADS 点击率、购买率与 Top100 排名避坑DWD => DWS(不需要) => ADS,在某个分析中不是所有的层都会用到。执行结果如下图所示:写入的内容如下所示:
武子康7 天前
大数据·后端·apache hive
大数据-237 离线数仓 - Hive 广告业务实战:ODS→DWD 事件解析、广告明细与转化分析落地基本介绍在上节已经完成,本节我们继续处理这块业务。事件日志数据样例:采集的信息包括:在广告的字段中,收集到的数据有:
大大大大晴天7 天前
大数据·flink
Flink生产问题排障-Kryo serializer scala extensions are not availableFlink作为一款高性能的分布式流处理框架,其序列化机制在任务运行中扮演着至关重要的角色。Flink在处理数据时,需要对网络传输、状态后端存储、检查点保存等场景进行序列化操作。Flink默认使用自研的高效序列化框架(TypeInformation / TypeSerializer),但对于无法直接序列化的类型,会回退到Kryo序列化器。
武子康9 天前
大数据·后端·apache hive
大数据-236 离线数仓 - 会员指标验证、DataX 导出与广告业务 ODS/DWD/ADS 全流程执行结果如下图(之前这里打错名称了,多打了字母m,大家根据实际情况修改)执行结果如下图:执行结果如下图所示:
武子康10 天前
大数据·后端·apache hive
大数据-235 离线数仓 - 实战:Flume+HDFS+Hive 搭建 ODS/DWD/DWS/ADS 会员分析链路数据采集 => ODS => DWD => DWS => ADS => MySQL 活跃会员、新增会员、会员留存
DianSan_ERP11 天前
大数据·运维·网络·人工智能·git·servlet
电商API接口全链路监控:构建坚不可摧的线上运维防线当电商数据接口成功上线后,真正的挑战才刚刚开始。线上环境复杂多变,如何确保接口持续稳定运行,是每个开发者都需要面对的长期任务。以下是经过验证的运维实践,帮助你在生产环境中保持系统的稳定性。
够快云库11 天前
大数据·人工智能·机器学习·企业文件安全
能源行业非结构化数据治理实战:从数据沼泽到智能资产非结构化数据资产化,是指将企业中广泛存在的、缺乏固定格式和模式的数据(如设计图纸、勘探报告、巡检影像、合同文档、会议纪要等),通过一系列技术与管理手段,进行统一采集、标准化治理、安全存储与智能分析,从而将其转化为可检索、可分析、可服务于业务决策与AI应用的高价值数据资产的过程。对于能源行业而言,这是释放数据潜能、驱动数字化转型的核心基石。
AI周红伟11 天前
大数据·人工智能·大模型·智能体
周红伟:智能体全栈构建实操:OpenClaw部署+Agent Skills+Seedance+RAG从入门到实战AI智能体的发展正从单一的聊天交互走向多能力融合的自主行动阶段,而OpenClaw作为开源的智能体编排框架,凭借极强的工具整合能力、灵活的技能扩展体系,成为连接Agent Skills、RAG检索增强生成、Seedance多模态视频生成的核心枢纽。本文基于智能体构建实战体系,从AI Agent基础理论出发,详解OpenClaw环境搭建、Agent核心技能拆解、RAG知识库构建,最终落地**Seedance+RAG+OpenClaw**的AI影视广告创意助手综合案例,同时附上**阿里云OpenClaw(Cl
B站计算机毕业设计超人11 天前
大数据·vue.js·hadoop·django·毕业设计·课程设计·推荐算法
计算机毕业设计Django+Vue.js高考推荐系统 高考可视化 大数据毕业设计(源码+LW文档+PPT+详细讲解)温馨提示:文末有 CSDN 平台官方提供的学长联系方式的名片!温馨提示:文末有 CSDN 平台官方提供的学长联系方式的名片!
计算机程序猿学长11 天前
大数据·django·课程设计
大数据毕业设计-基于django的音乐网站数据分析管理系统的设计与实现(源码+LW+部署文档+全bao+远程调试+代码讲解等)博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围::小程序、SpringBoot、SSM、JSP、Vue、PHP、Java、python、爬虫、数据可视化、大数据、物联网、机器学习等设计与开发。 主要内容:免费开题报告、任务书、全bao定制+中期检查PPT、代码编写、🚢文编写和辅导、🚢文降重、长期答辩答疑辅导、一对一专业代码讲解辅导答辩