gpu

BFT白芙堂3 小时前
人工智能·深度学习·算法·机器学习·gpu·具身智能·frankaresearch3
基于 GPU 并行加速的 pRRTC 算法:赋能 Franka 机械臂的高效、稳定运动规划高自由度机械臂(如7 自由度的 Franka Research 3)在执行复杂任务时,运动规划的实时性和一致性是至关重要的。传统的基于采样的运动规划算法(SBMP),如 RRT-Connect,虽然在处理高维空间问题上表现出色,但在复杂受限环境下的计算开销依然巨大 。
InfraTech2 天前
gpu·cuda
一文了解AI经典GPU架构---Tesla一文了解AI经典GPU架构—Tesla引言:Tesla架构可以认为是第一代真正开始用于并行运算的GPU架构,其硬件设计与细节奠定了当前并行运算架构的基本形态, 尽管主流的显卡架构Hopper(2022年3月发布,H100)的算力已经远超Tesla,但其运作模式、单元细节的设计理念基本保持不变,所以认识Tesla 架构,是了解GPU显卡硬件的基础。 本文通过分析Tesla架构的第一代(G80)和第二代(GT200),帮助读者对Tesla硬件有个基本认识。
STCNXPARM2 天前
arm开发·arm·gpu·android显示
Android14显示系统 - ARM GPU完全剖析1、Linux GPU物理模型 : http://joyxu.github.io/2021/05/09/gpu01/
HyperAI超神经3 天前
人工智能·深度学习·学习·机器学习·cpu·gpu
【TVM教程】TVM 运行时系统TVM 现已更新到 0.21.0 版本,TVM 中文文档已经和新版本对齐。Apache TVM 是一个深度的深度学习编译框架,适用于 CPU、GPU 和各种机器学习加速芯片。更多 TVM 中文文档可访问 →Apache TVM
InfraTech5 天前
分布式训练·gpu
NCCL通信C++示例(一): 基础用例解读与运行NCCL通信C++示例(一): 基础用例解读与运行NCCL(NVIDIA Collective Communication Library,pronounced “Nickel”)库主要用于GPU集群通信,写一点基础C++ API库调用相关内容供学习参考。NCCL doc文档的API介绍写得比较丰富,但介绍中逻辑穿插了各种操作的说明,对初学者来说有点绕,比如介绍communicator时会讲解comm的split操作。
HyperAI超神经7 天前
人工智能·深度学习·学习·机器学习·ai·cpu·gpu
在线教程丨 David Baker 团队开源 RFdiffusion3,实现全原子蛋白质设计的生成式突破近年来,利用生成式深度学习方法在新功能蛋白质设计方面取得了显著进展。目前包括 RFdiffusion(RFD1)和 BindCraft 在内的大多数方法,均采用氨基酸残基水平的蛋白质表示,已能够成功设计蛋白质单体、组装体以及蛋白质-蛋白质相互作用体系,但其分辨率仍不足以精确设计与非蛋白质组分(如小分子配体与核酸)发生特异性侧链相互作用的结构。
HyperAI超神经9 天前
人工智能·深度学习·学习·cpu·gpu·编程语言·vllm
【vLLM 学习】ReproduciblityvLLM 是一款专为大语言模型推理加速而设计的框架,实现了 KV 缓存内存几乎零浪费,解决了内存管理瓶颈问题。
侑虎科技10 天前
性能优化·gpu
UE是怎么管理纹理的各向异性采样的1)UE是怎么管理纹理的各向异性采样的 2)Unity 2022动态设置光照贴图手机端显示异常这是第459篇UWA技术知识分享的推送,精选了UWA社区的热门话题,涵盖了UWA问答、社区帖子等技术知识点,助力大家更全面地掌握和学习。
virtaitech10 天前
人工智能·科技·gpu·池化技术·永久免费
【免费申请】趋动科技OrionX社区版开放:GPU池化神器当您在凌晨三点调试模型,而GPU监控面板上的数字依然低迷;当宝贵的创意在资源排队的等待中渐渐冷却;当项目预算表上硬件开支的数额触目惊心——我们深知,这不是技术的瓶颈,这是创新者的共同困境。
InfraTech10 天前
分布式训练·gpu
NCCL通信C++示例(二): 用socket建立多机连接NCCL通信C++示例(二): 用socket建立多机连接NCCL(NVIDIA Collective Communication Library)库主要用于GPU集群通信,写一点基础c++ API库调用相关内容供学习参考。本文主要介绍用socket TCP/IP建立多机初始化连接,其它内容参看:
Pyeako11 天前
人工智能·pytorch·python·深度学习·gpu·cuda
深度学习--CUDA安装配置、pytorch库、torchvision库、torchaudio库安装CUDA 是 NVIDIA 为自家 GPU 打造的“计算引擎”,它让 GPU 不仅能处理图形,更能变成一个超级并行处理器,用来加速科学计算、人工智能、模拟等海量计算任务。
TracyCoder12312 天前
cpu·gpu·显存
算力的灵魂:GPU与显存要理解 CPU 和 GPU 的区别,我们先抛开复杂的电路图,用一个经典的 “算力剧场” 来打比方。让我们深入芯片内部,看看它们的“大脑构造”有何不同。
HyperAI超神经13 天前
人工智能·深度学习·学习·cpu·gpu·编程语言·vllm
【vLLM 学习】ProfilingvLLM 是一款专为大语言模型推理加速而设计的框架,实现了 KV 缓存内存几乎零浪费,解决了内存管理瓶颈问题。
UWA14 天前
gpu·physics
参数GPU Write Total Bandwidth的含义是什么,导致其值过高的因素有哪些1)参数GPU Write Total Bandwidth的含义是什么,导致其值过高的因素有哪些 2)对Unity项目来说,性能和效果可以兼顾的物理插件有哪些推荐
dzj202114 天前
unity·金融·gpu·shader·量化·compute shader
Unity的旁门左道用法(科学计算):用shader调用GPU做k线MA5的计算——DuckDB + Compute Shader我年轻的时候在村里没见过世面,看见有人用LabView来炒股,看见有人用Excel来画画,当时就觉得不可思议,总觉得别人是旁门左道,或者是吃撑了! 前几天在看shader graph,突然觉得,是不是可以用shader来做纯计算呢,甚至用来金融量化计算!于是就着shader的gpu计算,搭建了一个Unity的Demo,给定一只csvk线,读取,存入DuckDB,然后从DuckDB读取,传给GPU计算,算完后显示数据。 别人帮你把跨平台的事情都解决了,不管是什么OS,也不管什么端,只要能发布,就能跑!
梁辰兴14 天前
人工智能·gpu·芯片·电子·ai芯片·三星·梁辰兴
三星自研GPU剑指AI芯片霸权,2027年能否撼动英伟达?全球AI芯片战场的硝烟再度升级。三星电子突然抛出重磅消息:2027年将在Exynos处理器中搭载完全自研的GPU,目标直指端侧AI生态的自主权。这不是简单的硬件迭代,而是一场剑指英伟达霸权的豪赌。三星为何选择此时入局?手中的底牌能否支撑其野心?2027年的AI芯片格局,又将迎来怎样的变数?
predawnlove15 天前
算法·gpu·nccl
【NCCL】4 AllGather-PAT算法根据前三篇,可以得知:如果仅想要查看一个算法和其余算法的不同点,着重入手的地方为如下三处未完,不一定有续
predawnlove15 天前
gpu·nccl
【NCCL】5 GPU 间链路 Preconnect 机制详细分析 NCCL 中 GPU 间链路的 preconnect(预连接)机制。这是一个关键的优化,用于在实际通信前建立好所有必要的连接。
predawnlove16 天前
gpu·nccl·通信库
【NCCL】3. ncclPrepareTasks 到 scheduleCollTasksToPlan 的衔接机制Commit: 59242d7cncclPrepareTasks 之后如何衔接到 scheduleCollTasksToPlan 的完整流程。关键在于 ncclLaunchPrepare 函数。
HyperAI超神经20 天前
人工智能·深度学习·学习·大语言模型·cpu·gpu·vllm
【vLLM 学习】Prefix CachingvLLM 是一款专为大语言模型推理加速而设计的框架,实现了 KV 缓存内存几乎零浪费,解决了内存管理瓶颈问题。