cuda

VAllen16 小时前
ai·pytorch3d·cuda
在Windows平台使用源码编译和安装PyTorch3D指定版本最近在部署 SyncTalk 虚拟数字人项目时,需要安装很多依赖项,在执行到pip install --no-index --no-cache-dir pytorch3d -f https://dl.fbaipublicfiles.com/pytorch3d/packaging/wheels/py38_cu113_pyt1121/download.html这一句命令时,安装 PyTorch3D 失败,输出如下信息:
DogDaoDao3 天前
人工智能·windows·python·深度学习·nvidia·cuda·cudnn
Windows 环境搭建 CUDA 和 cuDNN 详细教程CUDA(Compute Unified Device Architecture)是由NVIDIA公司推出的一个并行计算平台和编程模型,它允许开发者使用NVIDIA GPU进行通用计算(即GPGPU),从而加速各种计算密集型任务。CUDA提供了一套基于C/C++的编程语言扩展,使得开发者能够编写在GPU上运行的代码,利用GPU的并行处理能力来提升程序性能。
Hi202402176 天前
性能优化·gpu·cuda·性能分析
Tesla T4 P2P测试Tesla T4 P2P测试
aimmon7 天前
人工智能·pytorch·python·深度学习·conda·cuda
深度学习之开发环境(CUDA、Conda、Pytorch)准备(4)目录1.CUDA 介绍1.1 CUDA 的基本概念1.2 CUDA 的工作原理1.3 CUDA 的应用领域
刘悦的技术博客8 天前
ai·tensorrt·cuda
Win11本地部署FaceFusion3最强AI换脸,集成Tensorrt10.4推理加速,让甜品显卡也能发挥生产力FaceFusion3.0.0大抵是现在最强的AI换脸项目,分享一下如何在Win11系统,基于最新的cuda12.6配合最新的cudnn9.4本地部署FaceFusion3.0.0项目,并且搭配Tensorrt10.4,提高推理速度和效率,让甜品级显卡也能爆发生产力。
kolaseen9 天前
人工智能·pytorch·python·深度学习·机器学习·gpu·cuda
pytorch 算子调用kernel示例(MINIST)当进行 MNIST 分类任务时,PyTorch 中的每一个算子会根据设备类型(CPU 或 CUDA)自动选择合适的内核(kernel)进行计算。本文以GPU为例,介绍算子调用kernel的过程。
kolaseen10 天前
人工智能·pytorch·python·深度学习·机器学习·cuda
pytorch 同步机制在 PyTorch 中,当多个算子(operators)和内核(kernels)被并行执行时,PyTorch 通过 CUDA 的 流(streams) 和 事件(events) 机制来管理并发和同步。CUDA 是一个异步计算平台,计算任务会被放入一个队列中异步执行,PyTorch 为了确保不同算子之间的依赖关系正确,使用了流和事件来管理任务的调度和同步。
kolaseen10 天前
人工智能·python·深度学习·架构·tensorflow·gpu·cuda
tensorflow底层架构TensorFlow 的架构分为多个层次,从上层的 Python 和 C++ 客户端到底层的设备管理和分布式计算。上层提供了用户友好的 API,用于定义和执行计算图;中层处理数据流的执行和分布式计算;底层则负责与硬件设备的交互,确保计算任务能够高效地在不同设备上执行。这种分层结构使得 TensorFlow 既能方便用户使用,也能够高效处理大规模的深度学习任务。
kolaseen11 天前
人工智能·python·深度学习·机器学习·tensorflow·gpu·cuda
tensorflow算子调用示例(MINIST)本文以MINIST为例,阐述在模型训练时,tensorflow框架每个算子具体调用kernel的过程。
kolaseen14 天前
人工智能·深度学习·机器学习·gpu·cuda·mxnet
mxnet同步机制在 MXNet 中,多个算子和多个内核(kernel)的同步机制依赖于 CUDA 流(CUDA Streams) 和 事件(CUDA Events),以及其内部的 执行引擎(Execution Engine)。这些机制确保了在 GPU 上进行深度学习任务时,能够有效地管理算子之间的并行执行、同步和调度。
kolaseen14 天前
人工智能·深度学习·机器学习·cuda·mxnet
mxnet 的显存分配机制MXNet 的显存分配机制在性能优化和资源管理方面起着至关重要的作用。它通过高效的内存管理和调度机制来分配和释放显存,确保在训练深度学习模型时最大限度地利用 GPU 的资源。MXNet 的显存分配机制类似于其他深度学习框架(如 PyTorch 和 TensorFlow),但它有自己的实现细节,主要依赖于 内存池(Memory Pool)机制来避免频繁的显存分配和释放。
SZ17011023114 天前
mysql·cuda·银河麒麟
麒麟银河桌面版,成功安装cuda12.6,mysql首先,你可以使用以下命令查看 nouveau 驱动是否正在运行:如果有输出,说明 nouveau 驱动正在加载。
Hi2024021714 天前
gpu·cuda·amd·gpgpu·rocm
Rocprofiler测试Rocprofiler测试输出在 ROCm(Radeon Open Compute)平台中,Agent 通常指的是计算设备或处理单元,这些可以是 CPU 或 GPU。每个 Agent 可以执行计算任务并具有自己的计算资源,如计算核心、内存等。在 ROCm 的程序模型中,Agent 是负责执行特定任务的实体,当你使用 ROCm 进行并行计算时,任务通常会分配给不同的 Agent 来处理。Agent 是 ROCm 的异构计算环境中进行任务调度和管理的基本单元之一
程序员小川16 天前
ai·cuda·paddle·cudnn
Ubuntu22.04安装paddle使用命令lsb_release -a查看系统版本查看系统支持的cuda版本,使用命令nvidia-smi,最高支持的cuda版本是12.4
大鹅同志19 天前
运维·服务器·pytorch·jupyter·cuda·云服务器
在服务器上开Juypter Lab教程(远程访问)介绍了如何在Linux服务器上配置远程访问的Jupyter Lab环境,包括从Anaconda的安装、Pytorch环境的创建、Jupyter Lab的配置到Node.js的安装步骤。它涵盖了相关命令的解释,例如如何赋予文件执行权限、创建和激活Conda虚拟环境以及配置Jupyter Lab的密码和远程访问。文件还包括一些常见问题的解决方法,如无法访问Jupyter Lab的登录界面、密码错误导致的登录失败以及环境未正确配置等。
一尺丈量20 天前
c++·人工智能·ffmpeg·cuda·硬件解码
ffmpeg硬件解码一般流程
Hi2024021720 天前
性能优化·gpu·cuda·性能分析·gpgpu
RTX3060 FP64测试与猜想RTX3060 FP64测试与猜想RTX3060 compute capability为8.6,每个SM有2个FP64 core。每个cycle可输出2个fp64的结果
Hi2024021722 天前
性能优化·gpu·cuda·性能分析·gpgpu
smsp__inst_executed_pipe_fp64为什么对不上smsp__inst_executed_pipe_fp64 为什么对不上
杰克逊的日记23 天前
cuda·nvdia
nvdia和cuda的区别与联系NVIDIA是一家知名的图形处理器(GPU)制造公司,而CUDA(Compute Unified Device Architecture)是由NVIDIA推出的一种并行计算架构和编程模型。NVIDIA通过其GPU产品提供强大的计算能力,而CUDA则是一种工具,允许开发者使用C/C++、Fortran等编程语言在NVIDIA的GPU上进行通用计算。简单来说,NVIDIA是硬件制造商,而CUDA是NVIDIA提供的一种软件架构和工具,用于充分发挥其GPU的计算潜力。
陈 洪 伟23 天前
mmu·cuda·虚拟内存
虚拟内存、内存分段、分页、CUDA编程中的零拷贝目录1 虚拟地址2 分段管理2.1 为什么分段管理会产生碎片3分页管理4 CUDA编程中的零拷贝参考文献: