技术栈
分布式
心中有国也有家
9 小时前
人工智能
·
经验分享
·
笔记
·
分布式
·
算法
·
架构
hccl 架构拆解:昇腾集合通信库到底在做什么?
你写了一个 allreduce(grads),背后发生了多少事情?hccl 的架构会告诉你答案。框架里调用 allreduce 跟点一份外卖一样简单——一行代码,等结果。但如果你是一个在做分布式训练的工程师,迟早会有一天发现:同样的代码,八卡跑得飞起,十六卡就开始鬼打墙——吞吐不涨反跌,GPU 利用率掉到 60% 以下。
18810506963
13 小时前
大数据
·
hadoop
·
分布式
摸鱼事务所——团队作业——大模型评测作业
本次作业通过构建自动化购车决策评测系统,对两个大语言模型在真实购车场景中的表现进行量化评估。这不仅是对模型能力的测试,更是对软件工程实践中自动化测试、需求分析和系统设计能力的综合锻炼。
大连赵哥
13 小时前
hadoop
·
分布式
·
hdfs
分布式文件存储系统:Hadoop HDFS
Hadoop分布式文件系统(Hadoop Distributed File System,简称HDFS)是一个分布式文件系统,它被设计用来在普通硬件上运行,提供高吞吐量来访问应用程序数据,非常适合大规模数据集的存储。HDFS 是 Apache Hadoop 项目的一部分,通常与 Hadoop MapReduce 计算模型一起使用,以支持大数据处理任务。
不爱编程的小陈
15 小时前
分布式
从存储引擎到文件系统:用FUSE将分布式KV挂载为本地目录
本文使用fuse将其与分布式的kv项目进行融合。实现了一个简易的文件系统,目的是为了学习和理解Fuse的框架和工作原理。仍然存在许多局限性的问题等待改善,作者在最后一章节会提到,希望各位大佬多多指正
song501
16 小时前
人工智能
·
分布式
·
深度学习
·
transformer
·
交互
对话:模型推理慢,怎么调
A:模型上线了,推理延迟 280ms,比预期高了一倍。B:280ms 是什么模型?输入多大?A:BERT-base,序列长度 512,batch=1。
LB2112
16 小时前
java
·
开发语言
·
redis
·
分布式
·
agent
消灭并发重复调用:基于 Agent 调用 LLM 的分布式 Single-Flight 实战
在构建 AI Agent 应用时,LLM 的 API 接口无疑是系统中最宝贵、最昂贵的资源。不仅因为按 Token 计费的成本高昂,更因为其响应延迟大、并发吞吐量受限(RPM/TPM 限制)。
心中有国也有家
17 小时前
人工智能
·
经验分享
·
笔记
·
分布式
·
算法
ascend-boost-comm:一次写完,到处复用——算子公共平台的 M×N 哲学
如果有 M 个算子和 N 个框架/模型,你需要写 M×N 次集成代码。但如果把共性抽象出一层公共平台,就只需要写 M+N 次。这就是 ascend-boost-comm 在解决的问题。
jameslogo
18 小时前
分布式
·
kafka
·
rocketmq
RocketMQ与Kafka零拷贝机制
零拷贝是一种减少数据在用户空间和内核空间之间拷贝次数的技术,从而提高数据传输效率。在传统的数据传输过程中,数据在用户空间和内核空间之间通常需要进行多次复制,而零拷贝技术则尽可能地减少或避免这些复制操作。
50084
18 小时前
分布式
·
架构
·
开源
·
wpf
GE 怎么做算子融合
两个相邻的算子,如果前一个的输出正好是后一个的输入,而且中间数据不卖给其他算子,就可以合成一个算子。合成之后,原来需要两次显存读写(写 HBM 再读 HBM)变成一个算子内部直接传,省掉一次显存搬运。对带宽敏感的模型(比如 Transformer),这个优化能带来 20-40% 的性能提升。
楠枬
21 小时前
数据库
·
redis
·
分布式
Redis 分布式锁
目录什么是分布式锁分布式锁实现锁的基础实现过期时间校验IDLua 脚本watch dog(看门狗)Redlock 算法
心中有国也有家
1 天前
人工智能
·
经验分享
·
笔记
·
分布式
·
学习
·
算法
hixl:昇腾分布式推理的「快递专线」
分布式推理里最烦的不是模型切不好,而是切完了之后卡和卡之间传数据太慢。hixl 就是来修这条高速路的。
不爱编程的小陈
1 天前
分布式
探究raft的线性一致性读方法
什么是线性一致性?线性一致性是分布式系统中最强的一致性模型,它要求系统表现得好像只有一个数据副本,且所有操作都是原子性的。简单说,就是让分布式系统看起来像单机系统一样。
devnullcoffee
1 天前
分布式
·
爬虫
·
亚马逊数据采集 api
·
亚马逊类目树数据
·
亚马逊 browse node
·
amazon 数据 api
亚马逊Browse Node类目树数据采集实战:从PA-API到分布式爬虫
本文面向需要批量获取亚马逊类目节点数据的技术团队,对比官方PA-API与第三方采集方案的优劣,并提供完整的Python调用示例。
song501
2 天前
分布式
·
python
·
flutter
·
ci/cd
·
分类
多卡训练加速:HCCL 集合通信实战
单卡训练慢,多卡又踩坑——梯度同步怎么配、拓扑怎么选、带宽怎么压满,这些细节决定分布式训练能不能真正提速。
Evand J
2 天前
开发语言
·
分布式
·
matlab
·
无人机
·
控制
【MATLAB控制例程】(9)多无人机编队协同控制与三维轨迹规划仿真,附下载链接
代码在MATLAB中搭建了一套多架无人机编队协同飞行的三维仿真场景。1 架领航机负责按照预设航路点自主导航,另外 4 架跟随机在领航机周围保持楔形队形跟飞。整个系统同时具备障碍物规避和无人机间防碰撞能力,最终输出轨迹、误差和控制量等多维度结果。 原创代码,请勿翻卖
50084
2 天前
分布式
·
架构
·
开源
·
wpf
·
开源鸿蒙
ATC 做了什么:从 ONNX 到 .om
前言训练好的模型,怎么跑到昇腾 NPU 上?答案是 ATC(Ascend Tensor Compiler)。它做的事情很直接:把一个框架导出的模型文件(通常是 ONNX 格式),编译成昇腾 NPU 可以直接执行的 .om 离线模型。
霸道流氓气质
2 天前
分布式
分布式锁与事务配合:为什么锁要在事务提交后释放
在分布式系统中,多个实例可能同时处理同一条数据。为了防止并发冲突,我们用分布式锁来保证同一时刻只有一个线程在操作某条数据。
muqsen
2 天前
java
·
开发语言
·
分布式
Java 分布式相关面试题总结
下面整理一篇适合 Java 后端开发面试的分布式相关面试题,覆盖分布式基础、CAP、分布式锁、分布式事务、注册中心、配置中心、服务调用、限流熔断、消息队列、缓存一致性等常见内容。
phltxy
2 天前
分布式
·
rabbitmq
RabbitMQ 入门与安装
RabbitMQ 属于消息中间件,是 Java 后端开发中非常常见的一类基础组件。学习它之前,最好已经具备以下基础:
阿坤带你走近大数据
2 天前
分布式
·
kafka
Kafka的基本概念,基本用法及常见使用场景
Apache Kafka 是一个开源的分布式事件流平台(Event Streaming Platform),最初由 LinkedIn 开发,2011 年开源并成为 Apache 顶级项目。它专为高吞吐、低延迟、可持久化、可扩展的实时数据处理而设计,已成为现代数据架构的核心组件。