技术栈
大数据
数据智研
32 分钟前
大数据
·
人工智能
·
信息可视化
·
数据分析
【数据分享】中国税务年鉴(1993-2024)(1998缺失)
数据概况《中国税务年鉴2024》是国家税务总局主管主办,中国税务出版社编辑出版发行,记录中国年度税收工作情况的大型文献资料性年刊。
yangmf2040
38 分钟前
大数据
·
运维
·
开发语言
·
python
·
elk
·
elasticsearch
·
搜索引擎
APM(三):监控 Python 服务链
上一篇我们通过 Skywalking 监控了一个单体的 Python Flask 服务,并在 Skywalking 的 Web UI 中进行展示。这次我们再写一个服务 BService,调用上次创建的 AService,看看在 Skywalking 中的效果如何。
yangmf2040
40 分钟前
大数据
·
python
·
elasticsearch
·
搜索引擎
APM(二):监控 Python 服务
上一篇我们已经安装好了 Skywalking 和 Easysearch,这次我们来写个简单的 Python 服务,并把它的服务调用信息发送给 Skywalking,通过 Skywalking 的 Web UI 进行展示。
Better Bench
1 小时前
大数据
·
elasticsearch
·
jenkins
Elasticsearch BM25 检索器连接问题解决方案
在 SafeRAG 项目中使用 BM25 检索器时遇到 Elasticsearch 连接问题。根本原因包括:
N***7385
3 小时前
大数据
·
c#
·
爬山算法
ReactGraphQLAPI
GraphQL作为一种查询语言,它的核心优势在于“按需索取”。不同于REST的固定端点,GraphQL允许前端定义具体需要哪些字段,服务器只返回这些内容,避免了不必要的数据传输。举个例子,假如我们有一个用户页面,需要显示用户名、头像和最近的三条动态。用REST的话,可能得先调用户接口,再调动态列表接口,甚至还得处理分页逻辑。而GraphQL只需一条查询语句,就能一次性拿到所有数据,大大减少了网络请求次数。这种灵活性尤其适合复杂应用,比如电商平台或社交网站,其中数据关系错综复杂,GraphQL能像一把手术刀
灯下夜无眠
6 小时前
大数据
·
spark
·
conda
conda打包环境上传spark集群
当本地训练的python环境与 Spark 集群其他节点环境不一致时,核心解决方案是:将本地 Python 虚拟环境打包为压缩包,通过 Spark 的–archives参数分发到所有 Executor 节点,强制所有节点使用统一的环境(Python 解释器 + 依赖包) 以下是具体实现步骤,支持conda和virtualenv两种虚拟环境(覆盖绝大多数本地训练场景),且无需 root 权限、不影响集群原有环境。 一、核心原理 环境打包:将本地虚拟环境(含 Python 解释器、所有依赖包如scikit-l
杂家
6 小时前
大数据
·
数据仓库
·
hive
·
hadoop
·
spark
Hive on Spark && Spark on Hive配置
☞官网下载链接由于默认的引擎是MapRduce,在任务执行过程中由Hive解析元数据,然后把sql翻译成MapReduce任务,此时这个运行效率是非常慢的,因为要落盘,有大量的IO操作,但是好处就是不会出现OOM问题,处理非常大的数据是可以用它的。Hive中集成Spark,Hive既作为元数据存储,又负责解析HQL语句,只是将Hive的引擎改为Spark,由Spark负责运算工作,Spak计算是基于内存的效率较高,但要注意内存配置,数据量的时候容器出现OOM问题。
电商API_18007905247
6 小时前
大数据
·
数据库
·
性能优化
·
数据挖掘
·
数据分析
·
网络爬虫
淘宝详情数据 API 返回字段全解析:核心字段说明 + 开发避坑指南
淘宝详情数据 API 是电商开发者对接淘宝生态的核心工具,可获取商品标题、价格、库存、规格、图文详情等关键信息,广泛用于竞品监控、店铺运营、数据分析等场景。本文基于淘宝开放平台最新 API 规范(2024 版),对返回数据的核心字段进行分类解析,附字段类型、含义、示例及开发注意事项,帮助开发者快速对接避坑。
2501_94180726
6 小时前
大数据
·
人工智能
·
物联网
可持续发展与绿色科技的未来:从创新到实践
随着全球气候变化和环境问题日益严重,可持续发展已经成为全球各国政府、企业和公众关注的焦点。从减少碳排放到推动绿色能源的使用,再到资源的循环利用和环保技术的创新,绿色科技已经成为解决环境问题、推动可持续发展不可或缺的工具。绿色科技不仅仅是为了保护环境,它还为经济增长、社会福祉和科技创新开辟了新的机遇。
武子康
6 小时前
大数据
·
后端
·
apache kylin
大数据-162 Apache Kylin 增量 Cube 与 Segment 实战:按天分区增量构建指南
Kylin将Cube划分为多个Segment(对应就是HBase中的一个表)例如:以下为针对某个Cube的Segment
小王毕业啦
7 小时前
大数据
·
人工智能
·
数据挖掘
·
数据分析
·
数据统计
·
社科数据
·
实证数据
1999-2023年 地级市-数字经济综合发展指数
1999-2023年 地级市-数字经济综合发展指数https://download.csdn.net/download/2401_84585615/90955436https://download.csdn.net/download/2401_84585615/90955436
bigdata-rookie
10 小时前
大数据
·
sql
·
spark
Spark SQL 简介
Spark SQL 是 Spark 用于结构化数据处理的模块,对于开发人员来讲,Spark SQL 可以简化 RDD 的开发,提高开发效率,且执行效率非常快,所以实际工作中,基本上采用的就是 Spark SQL。Spark SQL 为了简化 RDD 的开发,提高开发效率,提供了两个编程抽象,类似 Spark Core 中的 RDD。即 DataFrame 和 DataSet。
一只会写代码的猫
15 小时前
大数据
·
人工智能
可持续发展中的绿色科技:推动未来的环保创新
随着全球气候变化问题日益严重,环保和可持续发展的概念已经成为21世纪最紧迫的议题之一。绿色科技作为解决环境危机的重要手段,正在各行各业中崭露头角。它不仅关注如何减少资源浪费和能源消耗,还力求通过创新技术实现经济与环境的双赢。本文将探讨绿色科技的定义、应用领域以及它在推动可持续发展中的重要角色。
沧海寄馀生
16 小时前
大数据
·
hadoop
·
分布式
·
apache
Apache Hadoop生态组件部署分享-Hadoop
节点信息请参考:zookeeper: Apache Hadoop生态组件部署分享-zookeeper在 apache230.hadoop.com节点执行命令
毕设源码-朱学姐
16 小时前
大数据
·
hadoop
·
分布式
【开题答辩全过程】以 基于Hadoop的豆瓣电影数据分析系统设计与实现为例,包含答辩的问题和答案
个人简介一名14年经验的资深毕设内行人,语言擅长Java、php、微信小程序、Python、Golang、安卓Android等
原神启动1
17 小时前
大数据
·
http
·
云计算
云计算大数据——Nginx入门篇( Web 核心概念、HTTP/HTTPS协议 与 Nginx 安装)
提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档我们来系统地梳理一下 Nginx 中间件、Web 核心概念、HTTP/HTTPS 协议,并结合 Nginx 的安装,给出一个全面的前言和总结。
喝养乐多长不高
17 小时前
java
·
大数据
·
微服务
·
文件
·
地图
·
oss
JAVA微服务脚手架项目详解(三)
目录业务功能模块文件功能文件服务架构添加配置文件核心接口地图功能常见功能分析接口实现查询地图列表获取按照A-Z归类的城市列表信息
north_eagle
17 小时前
大数据
·
数据库
MySQL 业务数据,报表方案
这是一个非常经典且棘手的技术挑战。单表 5000 万数据在关系型数据库(如 MySQL/PostgreSQL)中属于“尴尬区”——它虽然不是海量大数据,但对于多表关联(Join) + 动态字段解析 + 复杂报表聚合来说,足以拖垮整个业务数据库的性能。
数据库学啊
18 小时前
大数据
·
数据库
·
时序数据库
·
tdengine
大数据场景下时序数据库选型指南:TDengine为什么凭借领先的技术和实践脱颖而出?
在物联网、工业互联网和IT运维等领域爆发式增长的今天,企业面临着海量时序数据管理的巨大挑战。选择一款合适的时序数据库(TSDB)已成为构建高效、可扩展数据平台的核心决策。在众多时序数据库产品中,TDengine凭借其独特的技术架构、卓越的性能和广泛的实践验证,正成为越来越多企业的首选。本文将深入解析TDengine脱颖而出的关键所在。
Mr_sun.
19 小时前
大数据
·
elasticsearch
·
jenkins
Day08——ElasticSearch-基础
黑马商城作为一个电商项目,商品的搜索肯定是访问频率最高的页面之一。目前搜索功能是基于数据库的模糊搜索来实现的,存在很多问题。