大数据

Elastic 中国社区官方博客1 小时前
大数据·人工智能·elasticsearch·搜索引擎·分类·数据挖掘·全文检索
日志根因分析:Elastic Observability 的异常检测与日志分类功能作者:来自 Elastic Bahubali ShettiElastic Observability 不仅提供日志聚合、指标分析、APM 和分布式追踪,Elastic 的机器学习能力还能帮助分析问题的根因,让你将时间专注于最重要的任务。
wuli玉shell2 小时前
大数据·分布式·spark
spark-shuffle 类型及其对比以上几种Shuffle类型的主要区别在于数据分布方式、排序过程和Reduce端合并过程。在实际应用中,需要根据数据分布情况、数据量大小和性能要求等因素选择合适的Shuffle类型。
zhixingheyi_tian2 小时前
大数据·分布式·spark
Spark 之 SparkPlanInfosrc/main/scala/org/apache/spark/sql/execution/SparkPlanInfo.scala
Elastic 中国社区官方博客2 小时前
大数据·数据库·人工智能·elasticsearch·搜索引擎·ai·全文检索
将嵌入映射到 Elasticsearch 字段类型:semantic_text、dense_vector、sparse_vector作者: Andre Luiz讨论如何以及何时使用 semantic_text、dense_vector 或 sparse_vector,以及它们与嵌入生成的关系。
小叶爱吃鱼3 小时前
大数据·python·信息可视化·数据分析
python-数据可视化(大数据、数据分析、可视化图像、HTML页面)通过 Python 读取 XLS 、CSV文件中的数据,对数据进行处理,然后生成包含柱状图、扇形图和折线图的 HTML 报告。这个方案使用了 pandas 处理数据,matplotlib 生成图表,并将图表嵌入到 HTML 页面中。
北漂老男孩4 小时前
大数据·分布式·spark
Spark Core基础与源码剖析全景手册Spark作为大数据领域的明星计算引擎,其核心原理、源码实现与调优方法一直是面试和实战中的高频考点。本文将系统梳理Spark Core与Hadoop生态的关系、经典案例、聚合与分区优化、算子底层原理、集群架构和源码剖析,结合流程图、源码片段和速记口诀,帮助你快速掌握Spark核心知识。
INFINI Labs4 小时前
大数据·elasticsearch·搜索引擎
ES 调优帖:关于索引合并参数 index.merge.policy.deletePctAllowed 的取值优化最近发现了 lucene 9.5 版本把 merge 策略的默认参数改了。也就是 index.merge.policy.deletePctAllowed 最小值可以取 5%(原来是 20%),而默认值为 20%(原来是 33%)。
杨超越luckly5 小时前
大数据·前端·信息可视化·数据分析·html
HTML应用指南:利用POST请求获取全国申通快递服务网点位置信息申通快递(STO Express)作为中国领先的综合物流服务商,自1993年创立以来,始终秉持“正道经营、长期主义”的发展理念,深耕快递物流领域,开创了行业加盟制先河。经过30余年的发展,申通已成长为国家5A级物流企业,并跻身《财富》中国500强及全国工商联“中国民营企业500强”榜单,成为A股上市企业。目前,申通构建了覆盖全国300余城市的物流网络,拥有独立网点超5,000个、服务站点及门店逾55,000个,业务范围延伸至全球150多个国家和地区,形成了仓、揽、转、运、派全链路一体化服务能力。
拓端研究室5 小时前
大数据·人工智能
2025年医美行业报告60+份汇总解读 | 附 PDF 下载原文链接:https://tecdat.cn/?p=42122医美行业在消费升级与技术迭代的双重驱动下,已从边缘市场逐步走向主流。数据显示,2024 年中国医美市场规模突破 3000 亿元,年复合增长率达 15%,但行业仍面临正品率不足、区域发展失衡等挑战。本报告通过梳理政策监管、消费行为、机构竞争等维度,提炼关键数据指标,如华东地区居民人均可支配收入与医美机构数量的关联性、针剂正品率分布等,旨在帮助读者系统把握行业脉络,预判趋势并制定战略。
jiedaodezhuti6 小时前
大数据·架构
lambda架构和kappa架构区别Lambda架构与Kappa架构是大数据处理领域的两种核心架构模式,主要差异体现在数据处理逻辑、系统复杂度和适用场景等方面。以下是二者的详细对比分析:
jiedaodezhuti6 小时前
大数据
Doris高性能读能力与实时性实现原理一、读性能优异的核心原因 ‌ MPP 分布式架构‌:采用大规模并行处理架构,将查询请求拆解为多个子任务并行执行,BE 节点之间通过数据分片并行计算‌实现负载均衡,线性扩展处理能力。 单查询可同时利用多节点 CPU 资源,10PB级数据亚秒级响应(P95 响应时间 <1 秒)。 ‌向量化执行引擎‌
敲敲敲-敲代码7 小时前
大数据·笔记·mapreduce
【大数据】MapReduce 编程-- PageRank--网页排名算法,用于衡量网页“重要性”-排序网页PageRank 是 Google 创始人拉里·佩奇(Larry Page)和谢尔盖·布林(Sergey Brin)在 1998 年提出的一种网页排名算法,用于衡量网页“重要性”的一种方式。它是搜索引擎中用于排序网页的一种基础算法
珈和info7 小时前
大数据·人工智能·科技
新浪《经济新闻》丨珈和科技联合蒲江政府打造“数字茶园+智能工厂+文旅综合体“创新模式5月14日,新浪网《经济新闻》频道专题报道珈和科技在第十四届四川国际茶业博览会上的精彩亮相,并深度聚焦我司以数字技术赋能川茶产业高质量发展创新技术路径,及在成都市“茶业建圈强链”主题推介会上,珈和科技与蒲江县人民政府就智慧农业产业项目签署战略合作协议落地智慧农业项目的合作成果,引起行业热切关注。
哈哈真棒7 小时前
大数据·数据库·mapreduce
MapReduce打包运行三)修改代码,设置执行环境和文件路径我们集群上安装的java环境是1.8的,那么我们生成的代码也必须是这个版本的,否则,就会无法运行。
澜堇7 小时前
大数据·hadoop·intellij-idea
IDEA2025版本使用Big Data Tools连接Linux上Hadoop的HDFS目录Windows的准备1. 将与Linux上版本相同的hadoop压缩包解压到本地编辑2.设置$HADOOP HOME环境变量指向:E:\hadoop-3.3.4
敲敲敲-敲代码7 小时前
大数据·笔记·mapreduce
【大数据】MapReduce 编程--索引倒排--根据“内容 ➜ 出现在哪些文件里(某个单词出现在了哪些文件中,以及在每个文件中出现了多少次)将 Hadoop 所需的 JAR 文件添加到项目中,确保可以使用 Hadoop 的 APIJAR (Java Archive) 文件是一种用于打包多个 Java 类文件、资源文件(如图片、配置文件等)以及元数据的压缩文件格式。它类似于 ZIP 文件,但 JAR 文件通常用于 Java 应用程序或库的分发。
格发许可优化管理系统7 小时前
大数据·网络·人工智能·自动化·云计算
femap许可与云计算集成随着云计算技术的迅猛发展,越来越多的企业开始将关键应用和服务迁移到云端,以享受其带来的弹性扩展、高效管理和成本优化等优势。Femap作为一款强大的电磁仿真工具,通过与云计算的集成,将为企业带来前所未有的许可管理和仿真分析体验。本文将探讨Femap许可与云计算集成的优势和应用,为您揭示这一创新解决方案的潜力和价值。
qrh_yogurt7 小时前
大数据·分布式·spark
Spark离线数据处理实例工具:Jupyter notebook# 一、需求分析(1)分析美妆商品信息,找出每个“商品小类”中价格最高的前5个商品。
Lansonli7 小时前
java·大数据·spark
大数据Spark(五十九):Standalone集群部署文章目录Standalone集群部署一、节点划分二、搭建Standalone集群1、将下载好的Spark安装包上传解压
coding随想10 小时前
大数据·hdfs·hbase
大数据技术全景解析:HDFS、HBase、MapReduce 与 Chukwa在当今这个信息爆炸的时代,大数据已经成为企业竞争力的重要组成部分。从电商的用户行为分析到金融的风险控制,从医疗健康的数据挖掘到智能制造的实时监控,大数据技术无处不在。然而,面对PB级甚至EB级的数据规模,传统的计算和存储方式已无法胜任。于是,以 Hadoop 生态系统 为代表的大数据技术应运而生。