分布式

心中有国也有家9 小时前
人工智能·经验分享·笔记·分布式·算法·架构
hccl 架构拆解:昇腾集合通信库到底在做什么?你写了一个 allreduce(grads),背后发生了多少事情?hccl 的架构会告诉你答案。框架里调用 allreduce 跟点一份外卖一样简单——一行代码,等结果。但如果你是一个在做分布式训练的工程师,迟早会有一天发现:同样的代码,八卡跑得飞起,十六卡就开始鬼打墙——吞吐不涨反跌,GPU 利用率掉到 60% 以下。
1881050696313 小时前
大数据·hadoop·分布式
摸鱼事务所——团队作业——大模型评测作业本次作业通过构建自动化购车决策评测系统,对两个大语言模型在真实购车场景中的表现进行量化评估。这不仅是对模型能力的测试,更是对软件工程实践中自动化测试、需求分析和系统设计能力的综合锻炼。
大连赵哥13 小时前
hadoop·分布式·hdfs
分布式文件存储系统:Hadoop HDFSHadoop分布式文件系统(Hadoop Distributed File System,简称HDFS)是一个分布式文件系统,它被设计用来在普通硬件上运行,提供高吞吐量来访问应用程序数据,非常适合大规模数据集的存储。HDFS 是 Apache Hadoop 项目的一部分,通常与 Hadoop MapReduce 计算模型一起使用,以支持大数据处理任务。
不爱编程的小陈15 小时前
分布式
从存储引擎到文件系统:用FUSE将分布式KV挂载为本地目录本文使用fuse将其与分布式的kv项目进行融合。实现了一个简易的文件系统,目的是为了学习和理解Fuse的框架和工作原理。仍然存在许多局限性的问题等待改善,作者在最后一章节会提到,希望各位大佬多多指正
song50116 小时前
人工智能·分布式·深度学习·transformer·交互
对话:模型推理慢,怎么调A:模型上线了,推理延迟 280ms,比预期高了一倍。B:280ms 是什么模型?输入多大?A:BERT-base,序列长度 512,batch=1。
LB211216 小时前
java·开发语言·redis·分布式·agent
消灭并发重复调用:基于 Agent 调用 LLM 的分布式 Single-Flight 实战在构建 AI Agent 应用时,LLM 的 API 接口无疑是系统中最宝贵、最昂贵的资源。不仅因为按 Token 计费的成本高昂,更因为其响应延迟大、并发吞吐量受限(RPM/TPM 限制)。
心中有国也有家17 小时前
人工智能·经验分享·笔记·分布式·算法
ascend-boost-comm:一次写完,到处复用——算子公共平台的 M×N 哲学如果有 M 个算子和 N 个框架/模型,你需要写 M×N 次集成代码。但如果把共性抽象出一层公共平台,就只需要写 M+N 次。这就是 ascend-boost-comm 在解决的问题。
jameslogo18 小时前
分布式·kafka·rocketmq
RocketMQ与Kafka零拷贝机制零拷贝是一种减少数据在用户空间和内核空间之间拷贝次数的技术,从而提高数据传输效率。在传统的数据传输过程中,数据在用户空间和内核空间之间通常需要进行多次复制,而零拷贝技术则尽可能地减少或避免这些复制操作。
5008418 小时前
分布式·架构·开源·wpf
GE 怎么做算子融合两个相邻的算子,如果前一个的输出正好是后一个的输入,而且中间数据不卖给其他算子,就可以合成一个算子。合成之后,原来需要两次显存读写(写 HBM 再读 HBM)变成一个算子内部直接传,省掉一次显存搬运。对带宽敏感的模型(比如 Transformer),这个优化能带来 20-40% 的性能提升。
楠枬21 小时前
数据库·redis·分布式
Redis 分布式锁目录什么是分布式锁分布式锁实现锁的基础实现过期时间校验IDLua 脚本watch dog(看门狗)Redlock 算法
心中有国也有家1 天前
人工智能·经验分享·笔记·分布式·学习·算法
hixl:昇腾分布式推理的「快递专线」分布式推理里最烦的不是模型切不好,而是切完了之后卡和卡之间传数据太慢。hixl 就是来修这条高速路的。
不爱编程的小陈1 天前
分布式
探究raft的线性一致性读方法什么是线性一致性?线性一致性是分布式系统中最强的一致性模型,它要求系统表现得好像只有一个数据副本,且所有操作都是原子性的。简单说,就是让分布式系统看起来像单机系统一样。
devnullcoffee1 天前
分布式·爬虫·亚马逊数据采集 api·亚马逊类目树数据·亚马逊 browse node·amazon 数据 api
亚马逊Browse Node类目树数据采集实战:从PA-API到分布式爬虫本文面向需要批量获取亚马逊类目节点数据的技术团队,对比官方PA-API与第三方采集方案的优劣,并提供完整的Python调用示例。
song5012 天前
分布式·python·flutter·ci/cd·分类
多卡训练加速:HCCL 集合通信实战单卡训练慢,多卡又踩坑——梯度同步怎么配、拓扑怎么选、带宽怎么压满,这些细节决定分布式训练能不能真正提速。
Evand J2 天前
开发语言·分布式·matlab·无人机·控制
【MATLAB控制例程】(9)多无人机编队协同控制与三维轨迹规划仿真,附下载链接代码在MATLAB中搭建了一套多架无人机编队协同飞行的三维仿真场景。1 架领航机负责按照预设航路点自主导航,另外 4 架跟随机在领航机周围保持楔形队形跟飞。整个系统同时具备障碍物规避和无人机间防碰撞能力,最终输出轨迹、误差和控制量等多维度结果。 原创代码,请勿翻卖
500842 天前
分布式·架构·开源·wpf·开源鸿蒙
ATC 做了什么:从 ONNX 到 .om前言训练好的模型,怎么跑到昇腾 NPU 上?答案是 ATC(Ascend Tensor Compiler)。它做的事情很直接:把一个框架导出的模型文件(通常是 ONNX 格式),编译成昇腾 NPU 可以直接执行的 .om 离线模型。
霸道流氓气质2 天前
分布式
分布式锁与事务配合:为什么锁要在事务提交后释放在分布式系统中,多个实例可能同时处理同一条数据。为了防止并发冲突,我们用分布式锁来保证同一时刻只有一个线程在操作某条数据。
muqsen2 天前
java·开发语言·分布式
Java 分布式相关面试题总结下面整理一篇适合 Java 后端开发面试的分布式相关面试题,覆盖分布式基础、CAP、分布式锁、分布式事务、注册中心、配置中心、服务调用、限流熔断、消息队列、缓存一致性等常见内容。
phltxy2 天前
分布式·rabbitmq
RabbitMQ 入门与安装RabbitMQ 属于消息中间件,是 Java 后端开发中非常常见的一类基础组件。学习它之前,最好已经具备以下基础:
阿坤带你走近大数据2 天前
分布式·kafka
Kafka的基本概念,基本用法及常见使用场景Apache Kafka 是一个开源的分布式事件流平台(Event Streaming Platform),最初由 LinkedIn 开发,2011 年开源并成为 Apache 顶级项目。它专为高吞吐、低延迟、可持久化、可扩展的实时数据处理而设计,已成为现代数据架构的核心组件。