技术栈
分布式
程序员泠零澪回家种桔子
2 小时前
分布式
分布式事务核心解析与实战方案
分布式事务是分布式系统中保障跨服务、跨数据库操作“原子性”的核心技术,核心目标是解决“多个独立操作要么全成功、要么全回滚”的一致性问题。以下结合应用场景、TCC 模式核心异常(空回滚/防悬挂)、Elasticsearch 实现方案三大维度,展开深度解析:
凯子坚持 c
3 小时前
分布式
CANN 生态中的分布式训练利器:深入 `collective-ops` 项目实现高效多卡协同
cann组织链接:https://atomgit.com/cann ops-nn仓库链接:https://atomgit.com/cann/ops-nn 随着大模型时代的到来,单设备算力已难以满足训练需求。分布式训练成为标配,而通信效率直接决定了集群的扩展能力与训练速度。CANN 开源生态中的 collective-ops 项目,正是为解决 NPU 集群下的高性能通信问题而设计——它基于 HCCL(HuaWei Collective Communication Library)构建,提供 AllReduc
惊讶的猫
4 小时前
分布式
·
rabbitmq
rabbitmq实践小案例
使用下面的语句在阿里云linux上创建一个rabbitmq docker实例。1、首次访问需要登录,默认的用户名和密码在配置文件中已经指定了。(即上面的docker命令指定了)
禁默
5 小时前
分布式
·
重构
·
aigc
打破集群通信“内存墙”:手把手教你用 CANN SHMEM 重构 AIGC 分布式算子
目录前言一、 架构深剖:为什么 SHMEM 比传统通信更快?二、 实战演练:用 SHMEM 写一个“环形同步”算子
惊讶的猫
7 小时前
分布式
·
rabbitmq
rabbitmq初步介绍
同步调用是一种请求 - 等待的交互模式:当服务 A 调用服务 B 时,A 会暂停自身执行,直到 B 返回结果后,A 才会继续处理后续逻辑。
小镇敲码人
7 小时前
分布式
·
华为
华为CANN框架中HCCL仓库的全面解析:分布式通信的引擎
在人工智能时代,大规模模型训练已成为常态,华为的Compute Architecture for Neural Networks(CANN)框架通过其强大的异构计算能力,支持从单机到万卡集群的AI计算。HCCL(Huawei Collective Communication Library)仓库作为CANN的核心组件之一,专注于分布式通信操作,提供高效的集体通信原语,如AllReduce、Broadcast、AllGather等。这些操作是分布式训练的关键,确保多NPU间参数同步和数据交换。HCCL仓库开
User_芊芊君子
7 小时前
分布式
·
深度学习
·
神经网络
·
wpf
【分布式训练】CANN SHMEM跨设备内存通信库:构建高效多机多卡训练的关键组件
CANN组织链接: https://atomgit.com/cann shmem仓库链接: https://atomgit.com/cann/shmem
酷酷的崽798
8 小时前
分布式
·
开源
CANN 开源生态解析(四):`cann-dist-train` —— 构建高效可扩展的分布式训练引擎
cann组织链接:https://atomgit.com/cann ops-nn仓库链接:https://atomgit.com/cann/ops-nn 随着大语言模型参数量突破千亿甚至万亿级别,单机训练已完全无法满足需求。如何在由数十乃至数百台设备组成的集群上,实现高吞吐、低通信开销、强容错能力的训练流程,成为 AI 工程的核心难题。
惊讶的猫
8 小时前
分布式
·
rabbitmq
AMQP 与 RabbitMQ 四大模型
AMQP 是 Advanced Message Queuing Protocol(高级消息队列协议) 的缩写,是一套跨语言、跨平台的消息传递开放标准。
灰子学技术
9 小时前
分布式
·
云原生
·
istio
istio从0到1:如何解决分布式配置同步问题
问题描述:istio的控制面istiod包装了virtual service和destination rules ,他们是应用粒度的,而istiod和envoy之间的交互又被拆分成了xds,也就是lds,rds,cds这些,特别是rds和cds,一旦配置下发的顺序不对,就会出现流量有损。
小马爱打代码
9 小时前
分布式
·
zookeeper
·
云原生
ZooKeeper:入门实战
ZooKeeper是一个开源的分布式协调服务,由Apache基金会维护。它最初是雅虎公司为了解决分布式系统中的协调问题而开发的,现在已经成为Hadoop、HBase、Kafka等众多分布式系统的基础设施。
永远都不秃头的程序员(互关)
10 小时前
分布式
·
aigc
CANN赋能AIGC分布式训练:硬核通信,加速大模型智能生成新纪元
✨ 导语 AIGC(人工智能生成内容)技术已成为当今科技领域最激动人心的前沿,从创作引人入胜的文本,到生成逼真图像和视频,其核心是参数规模庞大、结构复杂的深度学习模型。这些模型动辄拥有数百亿、数千亿甚至万亿级的参数,单一AI加速卡已无法满足其训练所需的计算和存储需求。因此,将模型训练任务分布到成百上千张AI加速卡上,进行分布式训练,成为了AIGC大模型研究与落地的必由之路。
杜子不疼.
11 小时前
分布式
CANN集合通信库HCCL的大规模分布式训练通信优化与拓扑感知实践
在大规模分布式训练场景中,节点间的高效通信是决定训练性能的关键因素。HCCL(Huawei Collective Communication Library)是CANN生态中的高性能集合通信库,为多机多卡训练提供通信基础设施。本文将深入剖析HCCL的通信算法、拓扑优化策略以及在超大规模集群中的最佳实践。
ALex_zry
1 天前
redis
·
分布式
·
缓存
Redis Cluster 分布式缓存架构设计与实践
技术主题:Redis Cluster 分布式缓存架构的设计原理与实践应用核心观点:Redis Cluster 通过分片技术和高可用设计,成功解决了单机 Redis 的性能瓶颈和单点故障问题,为大规模应用提供了可靠的分布式缓存解决方案。其去中心化的设计理念和自动故障转移机制,使其成为构建高并发、高可用系统的理想选择。
为什么不问问神奇的海螺呢丶
1 天前
分布式
·
rabbitmq
·
ruby
n9e categraf rabbitmq监控配置
TTBIGDATA
1 天前
hadoop
·
分布式
·
kafka
·
ambari
·
hdp
·
linq
·
ranger
【Atlas】Atlas Hook 消费 Kafka 报错:GroupAuthorizationException
Atlas 启动后,NotificationHookConsumer 线程持续报错,典型信息是:现象要点
m0_68739984
1 天前
分布式
·
rabbitmq
telnet localhost 15672 RabbitMQ “Connection refused“ 错误表示目标主机拒绝了连接请求。
bashbashbashbashbashbash创建一个 diagnose_rabbitmq.sh 脚本:
陌上丨
1 天前
分布式
生产环境分布式锁的常见问题和解决方案有哪些?
当一个客户端获取了锁,但由于某些原因(如程序崩溃、异常等)无法释放锁时,会导致其他客户端永远无法获取锁。
新新学长搞科研
1 天前
人工智能
·
分布式
·
科技
·
物联网
·
云计算
·
智慧城市
·
学术会议
【智慧城市专题IEEE会议】第六届物联网与智慧城市国际学术会议(IoTSC 2026)
第六届物联网与智慧城市国际学术会议(IoTSC 2026)2026 6th International Conference on Internet of Things and Smart City
泡泡以安
1 天前
分布式
·
爬虫
·
scrapy
·
调度器
Scrapy分布式爬虫调度器架构设计说明
本调度器是基于 Redis 的分布式爬虫任务调度系统,核心职责包括:大规模爬虫场景下的典型问题与调度器方案对照如下: