分布式

LDG_AGI1 小时前
pytorch·分布式·深度学习
【推荐系统】深度学习训练框架(二十一):DistributedCheckPoint(DCP) — PyTorch分布式模型存储与加载在TorchRec中,当使用DistributedModelParallel (DMP)进行大规模推荐系统训练时,传统的单机模型保存方法无法满足需求。PyTorch的Distributed Checkpoint (DCP) 是专门为此类场景设计的解决方案,它支持:
LDG_AGI1 小时前
人工智能·分布式·深度学习·机器学习·数据挖掘·推荐算法
【推荐系统】深度学习训练框架(二十三):TorchRec端到端超大规模模型分布式训练+推理实战在大规模推荐系统中,模型参数量通常达到数十亿甚至数百亿,单GPU无法容纳。TorchRec的DistributedModelParallel (DMP) 通过将模型分片到多个GPU上,解决了这一挑战。但这也带来了分布式检查点和推理部署的新问题。
清晓粼溪1 小时前
分布式·spring·spring cloud
SpringCloud-05-Micrometer Tracing+ZipKin分布式链路追踪在微服务框架中,一个由客户端发起的请求在后端系统中会经过多个不同的的服务节点调用来协同产生最后的请求结果。每一个前段请求都会形成一条复杂的分布式服务调用链路,链路中的任何一环出现高延时或错误都会引起整个请求最后的失败。
独自破碎E1 小时前
分布式·rabbitmq
聊聊RabbitMQRabbitMQ是一个开源的消息中间件。如果没有RabbitMQ,系统A直接把数据传给系统B,这样当B忙不过来或者挂了的时候,A就会卡死或者造成数据丢失。
小股虫2 小时前
java·分布式·安全·缓存·微服务·架构
缓存攻防战:在增长中台设计一套高效且安全的缓存体系本文是「架构师的技术基石」系列的第4-2篇。查看系列完整路线图与所有文章目录:【重磅系列】架构师技术基石全景图:以「增长中台」贯穿16讲硬核实战
2503_946971862 小时前
分布式·网络安全·架构·系统架构·区块链·数据集·全栈开发
【FullStack/ZeroDay】2026年度全栈魔法架构与分布式恶意节点清除基准索引 (Benchmark Index)为了验证霍格沃茨防火墙(Hogwarts Firewall)在面对黑魔法注入(Dark Magic Injection)时的防御能力,以及如何彻底清除基于魂器(Horcruxes)的分布式恶意备份,我们整理了 "Benchmark-Potter-Saga" 核心演练集。
回家路上绕了弯2 小时前
分布式·后端
Resilience4j全面指南:轻量级熔断限流框架的实战与落地在分布式系统架构中,服务稳定性是永恒的核心命题。第三方接口超时、下游服务崩溃、突发流量冲击等问题,都可能引发“服务雪崩”,导致系统大面积瘫痪。为应对这些风险,熔断、限流、降级等容错机制应运而生。而Resilience4j作为Hystrix的轻量级替代方案,凭借无依赖、高适配性、简洁API等优势,成为Spring Boot生态下容错机制的首选框架之一。今天,我们就从核心原理、实战用法到生产落地,全方位拆解Resilience4j的使用。
LDG_AGI3 小时前
人工智能·分布式·深度学习
【推荐系统】深度学习训练框架(二十二):PyTorch2.5 + TorchRec1.0超大规模模型分布式推理实战传统单机推理在以下场景会遇到瓶颈,需要分布式推理:关键决策点:只有当模型大小超过单GPU内存容量(通常A100 80GB)时,才需要考虑分布式推理。95%+的生产场景使用单机推理即可。
2503_946971863 小时前
大数据·分布式·算法·系统架构·数据集
【SystemDesign/HA】2025年度高可用分布式仿真节点与预测模型容灾演练配置 (Disaster Recovery Config)为了验证下一代云计算架构在极端灾难场景(Disaster Scenarios)下的鲁棒性,以及超长周期预测模型的准确性,我们构建了 "US-Region-2025" 分布式仿真集群。
linux修理工3 小时前
分布式·kafka·linq
kafka topic consumer操作目的命令示例(请替换您的服务器地址和主题名)关键参数说明创建主题kafka-topics.sh --bootstrap-server 192.168.2.106:9092 --create --topic my_topic --partitions 3 --replication-factor 2
西格电力科技3 小时前
运维·人工智能·分布式·架构·系统架构·能源
光伏四可装置硬件平台架构详解:计算单元、通信接口与可靠性设计光伏四可装置作为实现“可测、可控、可信、可用”目标的核心载体,其硬件平台架构直接决定了功能落地的精度、效率与稳定性。在分布式光伏普及、BIPV场景多元化、电网协同需求升级的背景下,硬件平台需突破传统光伏设备“单一功能、适配性差”的局限,以“计算为核、通信为脉、可靠为基”构建架构体系。西格电力提供光伏策略控制服务器,了解详情可私信小编咨询。本文从计算单元的算力配置、通信接口的链路设计、可靠性的全场景防护三个维度,详解光伏四可装置硬件平台的架构逻辑与实现路径。
阿猿收手吧!3 小时前
大数据·分布式·elasticsearch
【Elasticsearch】Elasticsearch:高性能分布式搜索与分析引擎Elasticsearch(简称ES)是一款基于Lucene构建的分布式、RESTful风格的开源搜索与数据分析引擎,由Elastic(原Elasticsearch BV)公司开发维护,核心定位是实时、高可用、可扩展地处理海量结构化/非结构化数据的搜索、分析与存储需求。
@淡 定3 小时前
分布式
分布式ID生成策略分布式ID是分布式系统中全局唯一的标识符,用于标识数据的唯一性(如订单ID、用户ID、日志ID)。核心要求包括:
回家路上绕了弯21 小时前
分布式·后端
熔断限流实战指南:分布式系统的稳定性守卫在分布式系统中,服务依赖错综复杂,一个服务的故障可能引发连锁反应:第三方接口响应超时拖垮核心服务、突发流量冲垮数据库、下游服务崩溃导致上游服务堆积请求……这些问题最终都会演变为“服务雪崩”,造成系统大面积瘫痪。而熔断(Circuit Breaker)和限流(Rate Limiting),正是应对这些风险的两大核心手段——熔断负责“隔离故障”,避免风险扩散;限流负责“控制流量”,防止系统过载。今天,我们就从核心逻辑、实现原理、主流方案到落地实践,全面掌握熔断限流的设计与应用。
什么都不会的Tristan1 天前
分布式
基于Redis的分布式锁在jvm内部只有一个锁监视器,所以只有一个线程可以获取锁,可以实现线程间的互斥但是,当有多个jvm的时候,就会有多个锁监视器,就会有多个线程获取到锁,这样就没有办法实现多jvm进程之间的互斥了
kong79069281 天前
大数据·hadoop·分布式
Hadoop介绍HDFS介绍狭义上Hadoop指的是Apache软件基金会的一款开源软件。 用java语言实现,开源,允许用户使用简单的编程模型实现跨机器集群对海量数据进行分布式计算处理。 Hadoop核心组件 Hadoop HDFS(分布式文件存储系统):解决海量数据存储。 Hadoop YARN(集群资源管理和任务调度框架):解决资源任务调度。 Hadoop MapReduce(分布式计算框架):解决海量数据计算。 官网: http://hadoop.apache.org/
RockHopper20251 天前
分布式·世界模型·amr·具身机械主义·具身认知
AMR “分布式多世界”世界模型的工作原理说明在工业场景中,AMR 系统并不运行在一个“单一、实时一致、全知全能”的世界模型之上。工厂现场的可观测性天然不完备、约束来源多元、决策时标分层,并且存在多主体(车辆、调度器、边缘交通控制、站点设备、业务系统与人)并发行动。由此,AMR 的“世界模型”必须被理解为一种分布式的多世界世界模型:
linweidong1 天前
大数据·分布式·spark
Spark Shuffle的优化Spark Shuffle 是连接不同 Stage 的关键环节,也是 Spark 作业中最容易产生性能瓶颈的地方之一。它涉及大量磁盘 I/O、网络传输和内存使用。优化 Shuffle 对提升作业性能和稳定性至关重要。以下是一些关键的 Spark Shuffle 优化策略:
宇钶宇夕1 天前
运维·分布式·自动化
和利时MACS-K分布式控制系统深度解析:全冗余+开放兼容,赋能工业精准控制在工业自动化领域,过程控制的稳定性、可靠性直接决定生产效率与安全。和利时HOLLiAS MACS-K作为面向过程自动化的大型分布式控制系统,凭借全冗余设计、多重隔离技术及开放兼容特性,广泛应用于火电、化工、冶金等关键行业。本文从系统核心优势、架构设计、核心指标出发,带您快速掌握MACS-K的核心价值。
是阿威啊1 天前
大数据·hadoop·分布式·sql·scala
【用户行为归因分析项目】- 【企业级项目开发第四站】模拟三类用户行为数据上传到HadoopProductionOdsDataToHdfs功能:读取hive表中的设备信息和应用信息,从全量的设备id和应用id中随机获取