gpu算力

xingyuzhisuan10 小时前
大数据·云计算·gpu算力
算力租赁平台 GPU 资源隔离方案:显存抢占问题深度排查与解决随着算力租赁行业规模化发展,单台 GPU 服务器面向多租户共享使用成为主流部署模式。在未做精细化资源隔离的环境中,租户进程无序占用显存、显存溢出、进程互相抢占资源等问题频发。实测数据显示,无隔离策略的共享节点,显存抢占故障发生率可达 27%,直接造成任务中断、推理延迟上升 40% 以上,GPU 整体利用率从 88% 降至 59%。
算力百科小星18 小时前
图形渲染·gpu算力·gpu租用
2026 算力平台测评:智星云、Vast.ai、Lambda Labs 口碑与实力对比
xingyuzhisuan21 小时前
运维·服务器·云计算·gpu算力
8 卡 / 16 卡 GPU 服务器机架布线与高速互联带宽优化技术详解2026 年,大模型训练、超算仿真等场景推动 8 卡 / 16 卡 GPU 服务器成为算力集群主流部署形态。高密度部署下,机架布线规范性、高速互联带宽分配直接决定集群算力利用率与训练效率。实测数据显示,布线混乱可导致信号衰减 15%-25%,互联带宽分配不合理会造成 GPU 间通信延迟增加 300%,算力利用率从 92% 降至 65% 以下。
有来有去952721 小时前
人工智能·深度学习·语言模型·gpu算力·vllm
【训推框架】Vime-大规模 LLM/VLM 强化学习训练框架Versatile Infrastructure for Model Evolution — 基于 Megatron + vLLM 的大规模 LLM/VLM 强化学习训练框架
黄狗操作员2 天前
语言模型·云计算·运维开发·gpu算力
NCCL 2.29 官方文档参数解读Broadcast属于1对多的通信原语,一个数据发送者,多个数据接收者,可以在集群内把一个节点自身的数据广播到其他节点上。如下图所示,圈圈表示集群中的训练加速卡节点,相同的颜色的小方块则代表相同的数据。当主节点 0 执行Broadcast时,数据即从主节点0被广播至其他节点。
向量引擎3 天前
java·人工智能·python·aigc·ai编程·ai写作·gpu算力
AI API 正在进入“请求生命周期治理”阶段:从模型迁移、Agent 接入到成本与安全排错的工程化方法今天的 AI 表面上仍然围绕模型更新、Agent 平台、文件检索、开发工具接入和企业级服务展开。但如果把 OpenAI File Search 与向量存储、Google Gemini File Search、Anthropic API 释放说明、Microsoft Azure AI Foundry Agent Service、DeepSeek API 兼容接口、Dify 与各类客户端的模型配置放在一起观察,一个更重要的判断会浮现出来。
前端不太难3 天前
人工智能·gpu算力
从GPU到AI工厂:智能时代的基础设施革命大家好,我是 子玥酱,一名长期深耕在一线的前端程序媛 👩‍💻。曾就职于多家知名互联网大厂,目前在某国企负责前端软件研发相关工作,主要聚焦于业务型系统的工程化建设与长期维护。
weixin_447640068 天前
c语言·gpu算力
[GPU运算]cuda调用这段代码是一个标准的CUDA GPU内核函数,用于并行计算向量加法。让我详细解释每一部分的写法和目的:
ZStack开发者社区9 天前
服务器·云计算·gpu算力
VMware替代:从POC通过到生产可用,差距在哪里博通停售、国产化死线临近,选型误区正在让替代项目付出额外代价。VMware的核心价值从来不只是虚拟机调度。vSphere生态二十年积累的,是一套完整的运维体系:vCenter统一管理、vMotion热迁移、DRS动态资源调度、HA高可用、NSX网络虚拟化、vSAN存储融合——这些能力彼此咬合,构成了企业数据中心的运转底座。
zhangfeng113310 天前
人工智能·深度学习·安全·语言模型·gpu算力·芯片
那nvidia orim车载gpu tee安全飞地 和天垓 100 gpgpu的 飞地 ,大概有多大存储量 ,解密流程前提说明:英伟达 DRIVE Orin 与天数智芯天垓100 是两类完全不同的芯片。Orin 是车载 SoC(单片集成 CPU+GPU+安全引擎),天垓100 是数据中心 PCIe GPGPU 加速卡(需配合外部 CPU 使用)。两者的安全架构无法直接套用同一模板,必须分情况讨论。
zhangfeng113310 天前
人工智能·分布式·安全·transformer·gpu算力·芯片
天数智芯天垓 100 加密大模型分布式部署安全方案ai生成,不一定准确本方案针对企业用户在天数智芯天垓 100 通用 GPU 集群上部署加密大语言模型的核心安全需求——重点解决模型参数被窃取、推理过程数据泄露、分布式计算环节安全防护不足三大风险,基于天垓 100 的硬件级安全能力与 FlagOS 国产统一异构软件栈,量身设计了一套"密文存储-可信传输-密文分片计算-闭环验证"全链路加密的分布式部署架构。
zhangfeng113310 天前
人工智能·深度学习·语言模型·架构·机器人·gpu算力·芯片
把权重写死在芯片的架构 Taalas(HC1)芯片:车载 GPU / 智能驾驶 / 机器人 / 算力卡适配总结Taalas 不是通用GPU,是模型硬连线ASIC专用推理芯片(一芯片绑定一个固定大模型,HC1原生固化Llama3.1-8B),细分场景高度适配、全场景无法替代通用车载GPU,分三大场景拆解:
goodluckyaa10 天前
架构·gpu算力
NVIDIAGPU 架构中的不变常量(宏观 → 微观)这一层几乎没有不变的常量。 GPU 芯片的 SM 总数、GPC 总数、L2 缓存大小,都随架构和型号剧烈变化。旗舰卡可能有 128 个 SM,入门卡可能只有 20 个,这是 GPU 厂商划分产品线的主要手段。
zhangfeng113310 天前
人工智能·深度学习·语言模型·gpu算力·芯片
2021-2026 年全球 传统厂家AI 算力卡 GPU 前沿技术研究报告由ai生成,内容不一定准确(以下是基于上述三轮审稿意见修改后的完整报告)我已完成三轮审读。以下是详细的审稿意见,随后提供修改后的全文。
算力视野11 天前
服务器·人工智能·gpu算力
GPU、NPU、TPU有什么区别?GPU(Graphics Processing Unit,图形处理器),最初是用来处理电脑游戏画面的。
浪飘11 天前
docker·kubernetes·gpu算力
K8S场景下:华为NPU+基于HAMI VNPU能力整体介绍最近把HAMI vnpu的软硬切分能力测完了,写一篇整体的介绍,最主要的结论是当前vnpu的能力都无法直接用到生产,本身能力与周边可靠性、可观测性等能力缺失太多。
zhangfeng113311 天前
人工智能·语言模型·架构·transformer·gpu算力
ai算力卡,Tenstorrent 公司Jim Keller 和 Ljubisa Bajic的故事,taals公司这里有一个常见的误解需要澄清:Jim Keller 和 Ljubisa Bajic 并没有"一起成立"公司。Tenstorrent 是 Bajic 创立的,Keller 是后来加入的第一个投资人和高管。
zhangfeng113311 天前
人工智能·语言模型·transformer·gpu算力·芯片
非传统架构 AI 算力卡前沿研究报告:技术痛点、破局路2021-2026我已完成三轮审核(事实核查、逻辑结构、语言规范),发现原文存在1处重大事实错误、多处数据存疑、若干术语及格式问题。以下是修改后的完整报告:
算力视野13 天前
人工智能·gpu算力
AMD Instinct MI325X/MI350X路线图深度解析:288GB HBM3e如何硬刚英伟达?AMD宣布Instinct GPU一年一更,与英伟达同步节奏——GPU军备竞赛进入"双雄对撞"新阶段。
哈泽尔都13 天前
c++·python·算法·决策树·贪心算法·机器人·gpu算力
运动控制教学——5分钟学会力控算法(阻抗/导纳/力位混合)传统机器人控制的目标很单纯:让末端执行器准确到达某个位置。这在搬运、焊接这类"不碰东西"的任务里没问题。