gpu算力

科学计算技术爱好者1 天前
人工智能·算法·gpu算力
NVIDIA GPU 系列用途分类梳理随着深度学习、科学计算、渲染、可视化以及边缘计算的发展,NVIDIA 推出了多个面向不同场景的 GPU 系列产品,如 RTX、A 系列、H 系列、L 系列、Blackwell 系列等。理解这些系列的定位、架构基础与使用场景,有助于在系统设计、软硬件采购及调优中做出精准选择。
飞鹰512 天前
c++·gpt·chatgpt·gpu算力
CUDA高级优化实战:Stream、特殊内存与卷积优化—Week3学习总结前两周跟着课程学完基础知识和Shared Memory优化后,说实话,当时看到矩阵乘法从几百ms优化到几十ms,那种成就感真的很爽。Week 3进入了更硬核的内容,学完这周我感觉自己对GPU的理解又上了一个台阶。
骥龙2 天前
云计算·aigc·gpu算力
第一篇:背景篇 - 为什么医院需要自己的超算?副标题:从测序成本下降曲线到AI革命,看医疗科研的算力焦虑当一台测序仪一天产生的数据量,超过了整个医院信息科过去十年的存储容量;当一个AI模型训练所需的算力,足以让全院的办公电脑瘫痪一周——医疗科研,正经历着一场悄无声息的“算力饥荒”。
minhuan2 天前
人工智能·gpu算力·大模型应用·算力评估·算力优化
大模型应用:拆解大模型算力需求:算力是什么?怎么衡量?如何匹配?.64算力,通俗来说就是硬件进行计算的能力,类比为工厂的生产效率对大模型而言,算力核心体现在“单位时间内完成矩阵乘法、注意力计算等核心操作的次数”。
绿算技术2 天前
人工智能·算法·gpu算力
重塑智算存储范式:绿算技术NVMe-oF芯片解决方案全景剖析在人工智能计算进入“系统竞赛”的今天,我们面临一个核心矛盾:GPU算力以每年翻倍的速度增长,而存储访问的速度与效率却成为制约整体系统性能的致命瓶颈。特别是在大模型推理场景中,KV Cache对显存的巨大占用与高并发、低延迟访问需求,已从技术挑战演变为商业化的核心障碍。
weixin_307779133 天前
运维·人工智能·线性代数·矩阵·gpu算力
面向通用矩阵乘法(GEMM)负载的GPU建模方法:原理、实现与多场景应用价值通用矩阵乘法(GEMM)是深度学习训练与推理、科学计算和高性能计算中最为核心的计算操作之一。尤其在Transformer等大模型中,GEMM计算可占总耗时的75%以上,成为系统性能的关键瓶颈。如何精准预测GPU执行GEMM算子的性能,不仅是学术界的研究热点,更对工业界的任务调度、硬件优化与资源管理具有重大意义。 这是一种面向GEMM负载的GPU建模方法,通过多级协同建模机制,将缓存行为、指令开销与计算强度深度耦合,实现GPU执行GEMM算子的精准性能预测,可广泛应用于AI训练、科学计算等GPU密集型场景的
程序员老周6665 天前
人工智能·深度学习·语言模型·大模型·transformer·gpu算力·cuda
10.一文学会GPU与cuda原理,并从其原理来理解FlashAttentioncuda的每个block对应gpu中的每个sm(stream multiprocessor ), cuda的一个block可以分为多个warp,一个warp内有32个线程(在不同的数据上执行相同指令)
Allen_LVyingbo6 天前
支持向量机·架构·知识图谱·健康医疗·gpu算力·迭代加深
多智能体协作驱动的多模态医疗大模型系统:RAG–KAG双路径知识增强与架构的设计与验证(上)多模态医疗大模型在医学影像解读与临床文本自动化生成方面展现了突破性的潜力,为智慧医疗的发展注入了强劲动力。然而,在面向真实世界、高风险的临床环境部署时,这类模型普遍面临三大核心挑战:一是多源异构数据(如影像、文本、波形、基因组学)的语义对齐与联合推理困难;二是其参数化知识受限于训练数据,难以实时更新,导致对最新指南、药品警示等信息的响应滞后,且生成过程缺乏可追溯的证据链条;三是临床决策流程复杂、安全边界严格,单一的生成式模型无法适配多角色协作、多系统集成以及高审计要求的医疗工作流。为系统性地应对上述挑战,
密瓜智能10 天前
云原生·性能优化·开源·gpu算力·hami·密瓜智能
HAMi Meetup-贝壳找房 回顾:vGPU 推理集群的实践经验在大规模 AI 推理场景中,“算力不够”往往并非由硬件规模不足导致。贝壳找房(以下简称贝壳)在千卡级 GPU 集群规模下,整体 GPU 利用率约为 13%,主要问题来自小模型与多模型混跑场景下的显存碎片化以及整卡独占使用方式。
安博通10 天前
人工智能·安全·web安全·gpu算力
从边界设防到内生免疫:AI算力一体机的安全升维之路随着智能化浪潮席卷千行百业,AI算力正从云端数据中心快速渗透至生产一线与边缘现场。集计算、存储、网络于一体的AI算力一体机,成为这场变革中的“智能核心枢纽”:它高效调度资源,驱动关键决策,是业务智能化升级的核心引擎。
Allen_LVyingbo13 天前
支持向量机·知识图谱·健康医疗·gpu算力·迭代加深
面向“病历生成 + CDI/ICD”多智能体系统的选型策略与落地实践(一)本论文详细阐述了一套面向医疗领域“病历生成与临床文档改进(CDI)/国际疾病分类(ICD)”任务的多智能体系统架构设计与落地实施方案。针对医疗场景的特殊性——严格的合规要求、数据隐私保护、临床质量控制需求,我们提出了以“可控编排大于自由自治”为核心的设计理念,并构建了双轨同构迁移架构,使同一套技术栈既能满足院内闭环合规要求,又能平滑迁移到全院服务化弹性架构。论文重点阐述了基于Kubernetes的容器化部署方案、质量门禁体系设计、FHIR互操作标准集成以及针对Oracle数据库与SOAP WebServi
互联网工匠14 天前
人工智能·gpu算力
从冯·诺依曼架构看CPU和GPU计算的区别现代计算世界呈现出一种迷人的二元性:一面是CPU(中央处理器),作为通用计算的基石,处理着系统中最复杂的逻辑与控制任务;另一面是GPU(图形处理器),从专用图形处理器演变为通用并行计算的引擎,驱动着AI革命。本文将从计算机科学的根本——冯·诺依曼体系结构出发,深入解析这两大计算核心的本质区别、设计哲学及应用场景。
飞鹰5115 天前
c++·人工智能·性能优化·ai编程·gpu算力
CUDA入门:从Hello World到矩阵运算 - Week 1学习总结本文记录了我作为C++工程师转型AI Infrastructure的第一周学习经历,从零开始学习CUDA编程,完成了向量加法和矩阵运算的实战项目。
tech-share17 天前
linux·架构·系统架构·gpu算力
【无标题】IOMMU功能测试软件设计及实现 (二)knowledge base:PCIe ATS架构及工作原理 (一) https://mp.weixin.qq.com/s/GmesAPnZ66oBGpn0AhS1tg IOMMU工作原理,架构以及驱动软件实现 (一)
星辰引路-Lefan18 天前
ai·ai编程·llama·gpu算力
在浏览器中运行大模型:基于 WebGPU 的本地 LLM 应用深度解析仓库地址:GitHub仓库、Gitee仓库 所有代码均使用 Antigravity IDE 开发,模型为 Gemini 3 Pro
Allen_LVyingbo19 天前
支持向量机·云计算·知识图谱·gpu算力·迭代加深
CES 2026 NVIDIA 官方黄仁勋整场演讲分析在CES 2026的主题演讲中,NVIDIA创始人兼CEO黄仁勋并未止步于展示新一代芯片的性能飞跃,而是勾勒了一幅更为宏大的产业蓝图: 计算范式正在被“加速计算+AI”彻底重构。其核心论点是,一个价值约 10万亿美元的传统计算产业(涵盖数据中心、边缘与车端)正在整体“现代化”,迈向一个由 AI工厂驱动的未来。演讲的主角并非单一产品,而是以“ Rubin”命名的、六芯一体的下一代AI超级计算平台,它标志着竞争维度已从单纯的硬件性能,全面升级为端到端的系统协同、成本效率与运营可靠性的比拼。与此同时,NVIDI
北数云21 天前
人工智能·开源·gpu算力·模型
北数云v4.6.4 版本上线及域名切换通知为进一步提升平台能力与使用体验,北数云将上线 v4.6.4 版本,并同步完成域名切换与相关优化。现将本次更新及运维安排说明如下:
湘问海24 天前
gpu算力
算力租赁网站记录一下,一个常用的gpu租赁平台 英博云 。相对别的平台来说,支持我使用k8s进行部署。使用kubeconfig,通过kubectl操作资源。 当然,相比别的k8s平台,这是个超轻量的,没有具体的host node可以操作,但是执行kubeflow这些crd定义的资源是绰绰有余的。
GMICLOUD25 天前
gpu算力·出海·ai原生·ai基础设施
AICon 演讲精华 | GMI Cloud 深度解析全球化场景下的跨云异构 MaaS 平台实践摘要12 月 19 日 -20 日,AICon 大会在北京圆满落地。在这场面向 AI 资深开发者的大会上,GMI Cloud 资深架构师汪小康受邀参加,并进行了主题分享,本文为演讲内容精华整理。
DARLING Zero two♡1 个月前
华为·gpu算力·vllm
0-Day 极速响应:基于 vLLM-Ascend 在昇腾 NPU 上部署 Qwen2.5 的实战避坑指南资源导航:https://atomgit.com/Ascendhttps://ai.gitcode.com/ascend-tribe/openPangu-Ultra-MoE-718B-V1.1?source_module=search_result_model (建议关注昇腾社区活动或 GitCode/ModelArts 提供的体验实例)