大数据

liupenglove6 小时前
大数据·数据仓库·算法·elasticsearch·自动驾驶
自动驾驶数据仓库:时间片合并算法。在自动驾驶数据仓库,数据都是以时间片的方式进行保存、检索和流转的,但是这些时间片数据的自然时长可能在很大程度上无法直接满足模型的训练和评测,因此时间片的切分、交集计算、合并,前后扩等,就成了对数据进行二次加工、处理的常态化需求,这篇文章给小伙伴们分享一个对连续时间片进行合并的算法。
全能搬运大师9 小时前
大数据·elasticsearch·搜索引擎
win10安装Elasticsearch下载地址:Download Elasticsearch | Elastic双击elasticsearch.bat
Guheyunyi9 小时前
大数据·运维·网络·人工智能·安全·架构
电气安全监测系统:筑牢电气安全防线在电气化程度日益提高的现代社会,电气安全问题已成为关乎生命财产安全的重要议题。电气安全监测系统通过智能化技术手段,为各类场所提供全方位的电气安全保障。本文将深入分析现代电气安全监测系统的显著优势。
BigData共享9 小时前
大数据
StarRocks fragment的执行流程在 StarRocks 中,SQL 查询的生命周期分为三个阶段:查询解析(Parsing)、查询规划(Planning)和查询执行(Execution)。查询计划由 Frontend (FE) 生成并拆分为多个 fragment,这些 fragment 被分发到多个 BE 节点并行执行。每个 BE 节点接收到的 fragment 包含具体的执行逻辑,例如扫描数据、执行算子(比如 JOIN、AGGREGATE)以及结果返回。本文主要分析在 BE 侧对 fragment的执行流程,基于StarRocks3.4
阿里云大数据AI技术10 小时前
大数据·人工智能·数据分析
阿里云 EMR Serverless Spark: 面向 Data+AI 的高性能 Lakehouse 产品作者:玄橙 - 阿里云 EMR Serverless Spark 产品专家EMR Serverless Spark 是一款面向 Data+AI 的高性能 Lakehouse 产品。它为企业提供了一站式的数据平台服务,包括任务开发、调试、调度和运维等,极大地简化了数据处理和模型训练的全流程。同时,它100%兼容开源 Spark 生态,能够无缝集成到客户现有的数据平台。使用 EMR Serverless Spark,企业可以更专注于数据处理分析和模型训练调优,提高工作效率。今天我将从业务痛点、产品定位、产品介
杨小扩10 小时前
大数据·人工智能·软件工程
AI驱动的软件工程(中):文档驱动的编码与执行📚 系列文章导航 AI驱动的软件工程(上):人机协同的设计与建模 AI驱动的软件工程(中):文档驱动的编码与执行 AI驱动的软件工程(下):AI辅助的质检与交付
技术+ywxs578711 小时前
大数据·微信开放平台·微信小店·推客系统·系统搭建
如何提高微信小店推客系统的推广效果?推客的质量直接决定推广效果,盲目追求数量不如聚焦 “高匹配度 + 高行动力” 的核心群体。多数推客并非专业销售,若让其自行创作内容,容易出现 “文案生硬、重点模糊” 的问题。商家需搭建 “素材库 + 推广模板”,让推客 “一键转发” 即可出效果。
杨超越luckly12 小时前
大数据·信息可视化·数据分析·html·argis·门店
HTML应用指南:利用GET请求获取全国永辉超市门店位置信息永辉超市作为中国领先的零售企业,自2001年成立以来,一直专注于为消费者提供丰富、新鲜的商品选择与优质的购物体验。在快速发展的过程中,永辉不仅强化了其在线下门店的布局,同时也积极拓展线上服务平台,通过融合线上线下资源,实现了服务效率与顾客满意度的显著提升。
拓端研究室14 小时前
大数据·人工智能·物联网
专题:2025机器人产业深度洞察报告|附136份报告PDF与数据下载原文链接:https://tecdat.cn/?p=42966在当下这个科技飞速发展的时代,机器人宛如一股强大的力量,正全方位地渗透进各个行业。无论是热火朝天的工业生产现场,还是温馨的家庭生活场景;不管是救死扶伤的医疗康养领域,亦或是繁忙的物流仓储环节,都能看到机器人忙碌的身影。
阿里云大数据AI技术15 小时前
大数据·人工智能·云计算
NL2SQL 再创佳绩!阿里云论文中选 SIGMOD 2025当地时间6月22-27日,顶级国际会议SIGMOD 2025 在德国柏林正式召开。SIGMOD Conference 每年由 ACM 主办,汇集了全球顶尖的学者、研究人员和工业专家,探讨数据库系统、大数据处理、数据存储与检索、数据分析等方面的最新技术与应用。
庄小焱17 小时前
大数据
【离线数仓项目】——电商域ADS层开发实战本文主要介绍了电商域离线数仓项目中ADS层的开发实战。首先阐述了ADS层的定义、作用、设计特征及示例,接着详细介绍了ADS层的设计规范,包括命名、表结构、分区与性能、数据一致性与可追溯性、适配下游场景、数据质量保障、安全与权限管理以及表生命周期与归档规范。随后介绍了ADS层的采集策略及示例,包括聚合汇总、指标派生、多主题整合、特征抽取、实时流处理、维表补充、报表定制和分层输出策略。接着通过实战示例展示了ADS层数据集市与主题、数据模型、数据导入、任务调度和表关联管理的具体操作。最后对ADS层进行了深入思考
庄小焱17 小时前
大数据
【离线数仓项目】——离线大数据系统设计本文详细介绍了离线大数据系统的设计背景、实时系统与离线系统的对比、离线大数据系统的作用以及技术设计等内容。离线大数据系统适用于数据量大、计算复杂且对实时性要求不高的场景,可满足企业数据分析、AI/机器学习训练等需求,同时减轻实时系统压力。文章还探讨了离线大数据系统的整体架构、各层所需核心技术栈以及准实时大数据技术设计和全栈监控体系设计,为相关项目开发提供了全面的技术参考。
吃手机用谁付的款18 小时前
大数据·hadoop·python·信息可视化·数据分析
基于hadoop的竞赛网站日志数据分析与可视化(下)【基于hadoop的竞赛网站日志数据分析与可视化(上)】讲解了如何用hadoop对数据进行初步处理,本篇主要讲解用python对结果数据进行可视化分析。
线条119 小时前
大数据·分布式·spark
Spark 单机模式安装与测试全攻略上传安装包:将下载好的 Spark 安装包(如 spark-3.3.0-bin-hadoop3.tgz)通过 FTP 工具或 scp 命令上传至 Linux 服务器的指定目录,例如/opt/software。
老周聊架构19 小时前
大数据
大数据领域开山鼻祖组件Hadoop核心架构设计Hadoop是一个专为大数据设计的架构解决方案,历经多年开发演进,已逐渐发展成为一个庞大且复杂的系统。其内部工作机制融合了分布式理论与具体工程开发的精髓,构成了一个整体架构。
TDengine (老段)1 天前
大数据·数据库·物联网·时序数据库·iot·tdengine·涛思数据
TDengine 使用最佳实践(2)本文接上篇内容: TDengine 使用最佳实践(1)TDengine 是一款专为物联网、工业互联网等场景设计并优化的大数据平台,其核心模块是高性能、集群开源、云原生、极简的时序数据库。它能安全高效地将大量设备每天产生的高达 TB 甚至 PB 级的数据进行汇聚、存储、分析和分发,并提供 AI 智能体对数据进行预测与异常检测,提供实时的商业洞察。
Deng9452013141 天前
大数据·matplotlib·深度特征提取·随机森林分类算法·标签编码
基于大数据的电力系统故障诊断技术研究本文提出了一种创新性的基于大数据技术的电力系统故障诊断方法,该方法通过整合先进的机器学习算法和交互式可视化技术,实现了对电力系统各类故障的智能化识别与深度分析。该系统采用随机森林算法作为核心分类器,构建了高精度的故障分类模型,同时利用TensorFlow深度学习框架实现了多层次的特征提取与模式识别。在可视化方面,系统基于Django这一高效的Python Web框架,开发了功能完善的可视化分析平台,能够直观展示故障诊断结果和系统运行状态。整个方案不仅提高了故障诊断的准确率,还显著提升了电力系统运维的智能化
小菜鸡06261 天前
大数据·flink
FlinkSQL通解https://blog.csdn.net/be_racle/article/details/135921061?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522604e8b91e59f598cb3c69ae05c0628f7%2522%252C%2522scm%2522%253A%252220140713.130102334.pc%255Fall.%2522%257D&request_id=604e8b91e59f598cb3c69ae05
寅鸷1 天前
大数据·elasticsearch
es里为什么node和shard不是一对一的关系既然多个shard会被分配到同一个node上,那么为什么不把多个shard合并成一个然后存在当前node上呢,简而言之也就是让node和shard形成一对一的关系呢 ?非常好的问题,这正是理解Elasticsearch分片(shard)设计思想的关键点!
码字的字节1 天前
大数据·hadoop·分布式·hadoop架构设计
深入解析Hadoop架构设计:原理、组件与应用2006年,当Doug Cutting将他在Nutch项目中开发的分布式技术正式命名为"Hadoop"时,很少有人能预见这只以他儿子玩具大象命名的小象会掀起怎样的数据革命。这个看似随意的命名背后,是Google三篇划时代论文(GFS、MapReduce和BigTable)的开源实现,标志着大数据处理从理论走向实践的关键转折点。Hadoop最初只是Apache Lucene的子项目,却在短短几年内成长为处理海量数据的核心基础设施。