分布式

水木流年追梦10 小时前
开发语言·分布式·python·算法·正则表达式·prompt
大模型入门-大模型分布式训练2面对万亿级大模型,前面的招数还是不够用。微软的 DeepSpeed 敏锐地发现:显存不够,往往不是模型本身大,而是模型状态(Model States,包含优化器状态、梯度、模型参数)太占地方 。
松☆10 小时前
分布式
torchtitan-npu:7B大模型在8卡NPU上的分布式训练实录大模型训练的核心瓶颈从来不是算力不够,而是通信太慢。7B参数的模型,单卡显存放不下,必须拆到多卡上。多卡之间的梯度同步、参数更新、激活值传递,每一步都要跨卡通信。
青云计划11 小时前
分布式
看门狗机制:从锁过期到自动续期的工程实践——Redisson分布式锁的生命线大家好,我是程序员小策。凌晨两点,线上告警炸了。 你打开监控一看:库存被扣成了负数。日志里两条订单几乎同时通过了扣库存逻辑——明明加了分布式锁,怎么还是锁不住?
ZPC821012 小时前
大数据·分布式·spark
DGX Spark 200G 跟 100G 设备的通讯协议下面分四层讲:物理层 → 数据链路 / 网络层 → RDMA 传输层 → 应用通信库。不管 200G 还是 100G,L2/L3 完全一样:
水木流年追梦13 小时前
开发语言·分布式·python·算法·正则表达式·prompt
大模型入门-大模型分布式训练1随着大模型(如 GPT 系列)参数量的爆炸性增长,其训练所需的显存也呈指数级飙升 。面对动辄千亿、万亿参数的“巨兽”,最现实的物理阻碍就是:单块显卡根本装不下整个模型 。
phltxy16 小时前
分布式·rabbitmq·ruby
RabbitMQ 发送方确认与重试机制在使用 RabbitMQ 做异步解耦时,消息可靠性通常不只取决于“消息有没有持久化”。持久化解决的是消息到达 RabbitMQ 之后,Broker 异常重启时尽量不丢数据的问题;但如果生产者发送消息时网络抖动、交换机不存在,或者消息已经到达交换机却没有路由到任何队列,单靠持久化就无能为力了。
ULIi096kr14 小时前
数据库·redis·分布式
Redis 分布式锁进阶第七十二篇承接上一篇锁超时、主从丢锁、集群脑裂三大生产问题,本篇聚焦 Redisson 中三类高频进阶锁:公平锁、异步锁、读写锁。分别讲解设计原理、适用场景、底层逻辑、核心代码与线上使用规范,区分不同业务场景该如何选型,同时对比普通非公平锁的差异,补齐分布式锁完整知识体系。
云祺vinchin15 小时前
数据库·分布式·数据安全
云祺&南大通用:打造分布式数据库建设与灾备方案随着数字化转型的深入,分布式数据库发展十分迅猛,越来越多的企业开始采用分布式数据库来支撑其核心业务系统。目前,已经在金融、电信等大数据行业得到广泛应用,特别是在金融领域,分布式数据库已经成为核心交易系统的重要支撑。
bn9jBl64815 小时前
数据库·redis·分布式
Redis 分布式锁进阶第七十七篇传统物理机 / 虚拟机部署模式下,服务实例 IP、运行节点相对固定。迁移到 K8s 之后,Pod 动态创建、销毁、漂移、扩缩容、IP 频繁变化成为常态,再加上容器网络、资源隔离、服务发现、探针检测等新特性,原本稳定运行的分布式锁会暴露出全新问题:锁归属识别异常、续期中断、死锁残留、扩缩容瞬间并发击穿等。 本篇从场景痛点入手,逐一给出适配方案、代码改造、K8s 配置、Redis 调优,形成容器环境专属的分布式锁落地标准。
ULIi096kr15 小时前
数据库·redis·分布式
Redis 分布式锁进阶第七十一篇承接上一篇 Redisson 可重入锁底层原理,本篇聚焦生产环境最容易踩坑的三大致命问题:锁超时释放、Redis 主从同步丢锁、集群脑裂锁失效,逐一分析问题成因、风险影响,并给出标准解决方案、代码适配与生产落地规范,同时补充 Redisson 对应机制源码级解读。
bn9jBl64816 小时前
数据库·redis·分布式
Redis 分布式锁进阶第七十六篇经过前面七十五篇内容,我们已经完整掌握 Redis 分布式锁从底层原理、各类锁实现、生产踩坑、运维监控、跨技术栈对比全体系知识。在求职面试、技术答辩、代码评审场景中,分布式锁是后端、架构岗必考重难点。 本篇分为三大模块:经典面试真题(由浅入深)、Redisson 源码高频考点、全网通用认知误区与错误写法,每道题目配套标准答案、得分要点、拓展追问,同时区分初级、中级、高级面试难度。
无心水16 小时前
java·开发语言·人工智能·分布式·架构·技术领导力·技术判断力
【技术判断力:法则一】3、如何找到唯一且正确的架构目标?4步定目标+6问判方案+实战案例标签:架构师、软件架构、架构设计、技术成长、康奈尔笔记、架构目标、技术管理上一讲我们讲到:90% 的架构失败,源于没有唯一正确的目标。 但现实更扎心:目标不是别人给你的,是架构师自己“找”出来、“判”出来、“争”出来的。
这是谁的博客?16 小时前
分布式·ai·大模型·分布式训练·deepspeed·fsdp·zero
大模型分布式训练技术深度解析:从 ZeRO 到 3D 并行的全面指南本文深入剖析大模型分布式训练的核心技术体系,涵盖 ZeRO 内存优化三阶段原理、数据并行/张量并行/流水线并行的 3D 组合策略、DeepSpeed 与 FSDP 框架实现细节,以及 CPU/NVMe Offload 扩展技术。通过源码级分析揭示分布式训练的设计思想与通信优化机制,帮助开发者掌握训练百亿参数模型的关键技术。
Gxuj12DyD17 小时前
数据库·redis·分布式
Redis分布式锁进阶第二十三篇一、本篇前置衔接 第二十三篇我们完成了全系列终局复盘,整理了故障排查SOP与企业级落地铁律。常规单资源锁、热点分片锁、隔离锁全部讲透,但真实复杂业务永远不是单一资源:下单要扣库存、扣优惠券、扣积分、冻结余额,多资源并行争抢、跨服务嵌套加锁。多锁叠加必死锁、加锁无序必翻车。本篇第第二十三篇,专门深挖Redisson联锁底层原理、交叉死锁成因、多级资源统一排序,彻底根治复杂业务下最难排查、最容易线上卡死的连环死锁,补齐中大型复杂业务架构短板。
旺仔布丁17 小时前
分布式
分布式高级篇二
ULIi096kr17 小时前
数据库·redis·分布式
Redis 分布式锁进阶第七十三篇承接上一篇公平锁、异步锁、读写锁内容,本篇重点讲解 Redisson 联锁(MultiLock) 与 红锁(RedLock) 完整落地实现、底层差异、线上踩坑案例、性能优化方案,同时区分二者使用边界、搭配事务 / 超时 / 异常处理,补齐多节点分布式锁的生产实践要点。
未若君雅裁17 小时前
分布式·微服务·rabbitmq
RabbitMQ 死信交换机与延迟队列:TTL、DLX、DelayExchange怎么理解RabbitMQ 面试里经常把两个问题放在一起问:死信交换机是什么?延迟队列怎么做?这两个问题不是孤立的,因为 RabbitMQ 原生延迟队列的经典实现,就是 TTL + 死信交换机。
国科安芯18 小时前
网络·分布式·单片机·嵌入式硬件·架构·安全性测试
大电流低噪声LDO芯片在商业航天分布式电源架构中的应用分析商业航天的爆发式增长正深刻改变着空间任务的供电逻辑。低轨卫星星座、高分辨率对地观测、星间激光通信及在轨智能处理等新兴应用,对电源管理芯片提出了
心中有国也有家18 小时前
人工智能·经验分享·笔记·分布式·算法
NPU性能调优完全攻略——从Profiler到算子调优的实战方法论模型在NPU上跑通了,但是慢得让你怀疑人生?不是你模型的问题,是你没有做性能调优。这篇文章基于真实的NPU调优案例,从Profiler数据采集到算子级优化,手把手教你搞定NPU的性能问题。
麦兜和小可的舅舅18 小时前
c++·分布式·clickhouse·kafka
ClickHouse实时分布式集群设计方案选择探究我们需要搭建一个大型的ClickHouse集群,用来承接多个完全不同Traffic规模的Kafka表的数据落地。 在集群的规划和设计过程中,我们预想了两种完全不同的集群架构: 横向平铺式以及纵向切分式。 本文详细分析了我们在衡量两种不同架构时候的考虑因素,以及,我们最终形成解决方案时做的必要的补充测试和验证,基于我们做的测试和验证,当每一个细节都完全清楚了,我们做出了最终决定。 同时,我们还考虑到,基于我们集群架构的方案选择,这种集群以后的扩容、缩容、机器的修复流程是否都有合理方案? 本文就详细讲解了整个