技术栈
cuda
VAllen
16 小时前
ai
·
pytorch3d
·
cuda
在Windows平台使用源码编译和安装PyTorch3D指定版本
最近在部署 SyncTalk 虚拟数字人项目时,需要安装很多依赖项,在执行到pip install --no-index --no-cache-dir pytorch3d -f https://dl.fbaipublicfiles.com/pytorch3d/packaging/wheels/py38_cu113_pyt1121/download.html这一句命令时,安装 PyTorch3D 失败,输出如下信息:
DogDaoDao
3 天前
人工智能
·
windows
·
python
·
深度学习
·
nvidia
·
cuda
·
cudnn
Windows 环境搭建 CUDA 和 cuDNN 详细教程
CUDA(Compute Unified Device Architecture)是由NVIDIA公司推出的一个并行计算平台和编程模型,它允许开发者使用NVIDIA GPU进行通用计算(即GPGPU),从而加速各种计算密集型任务。CUDA提供了一套基于C/C++的编程语言扩展,使得开发者能够编写在GPU上运行的代码,利用GPU的并行处理能力来提升程序性能。
Hi20240217
6 天前
性能优化
·
gpu
·
cuda
·
性能分析
Tesla T4 P2P测试
Tesla T4 P2P测试
aimmon
7 天前
人工智能
·
pytorch
·
python
·
深度学习
·
conda
·
cuda
深度学习之开发环境(CUDA、Conda、Pytorch)准备(4)
目录1.CUDA 介绍1.1 CUDA 的基本概念1.2 CUDA 的工作原理1.3 CUDA 的应用领域
刘悦的技术博客
8 天前
ai
·
tensorrt
·
cuda
Win11本地部署FaceFusion3最强AI换脸,集成Tensorrt10.4推理加速,让甜品显卡也能发挥生产力
FaceFusion3.0.0大抵是现在最强的AI换脸项目,分享一下如何在Win11系统,基于最新的cuda12.6配合最新的cudnn9.4本地部署FaceFusion3.0.0项目,并且搭配Tensorrt10.4,提高推理速度和效率,让甜品级显卡也能爆发生产力。
kolaseen
9 天前
人工智能
·
pytorch
·
python
·
深度学习
·
机器学习
·
gpu
·
cuda
pytorch 算子调用kernel示例(MINIST)
当进行 MNIST 分类任务时,PyTorch 中的每一个算子会根据设备类型(CPU 或 CUDA)自动选择合适的内核(kernel)进行计算。本文以GPU为例,介绍算子调用kernel的过程。
kolaseen
10 天前
人工智能
·
pytorch
·
python
·
深度学习
·
机器学习
·
cuda
pytorch 同步机制
在 PyTorch 中,当多个算子(operators)和内核(kernels)被并行执行时,PyTorch 通过 CUDA 的 流(streams) 和 事件(events) 机制来管理并发和同步。CUDA 是一个异步计算平台,计算任务会被放入一个队列中异步执行,PyTorch 为了确保不同算子之间的依赖关系正确,使用了流和事件来管理任务的调度和同步。
kolaseen
10 天前
人工智能
·
python
·
深度学习
·
架构
·
tensorflow
·
gpu
·
cuda
tensorflow底层架构
TensorFlow 的架构分为多个层次,从上层的 Python 和 C++ 客户端到底层的设备管理和分布式计算。上层提供了用户友好的 API,用于定义和执行计算图;中层处理数据流的执行和分布式计算;底层则负责与硬件设备的交互,确保计算任务能够高效地在不同设备上执行。这种分层结构使得 TensorFlow 既能方便用户使用,也能够高效处理大规模的深度学习任务。
kolaseen
11 天前
人工智能
·
python
·
深度学习
·
机器学习
·
tensorflow
·
gpu
·
cuda
tensorflow算子调用示例(MINIST)
本文以MINIST为例,阐述在模型训练时,tensorflow框架每个算子具体调用kernel的过程。
kolaseen
14 天前
人工智能
·
深度学习
·
机器学习
·
gpu
·
cuda
·
mxnet
mxnet同步机制
在 MXNet 中,多个算子和多个内核(kernel)的同步机制依赖于 CUDA 流(CUDA Streams) 和 事件(CUDA Events),以及其内部的 执行引擎(Execution Engine)。这些机制确保了在 GPU 上进行深度学习任务时,能够有效地管理算子之间的并行执行、同步和调度。
kolaseen
14 天前
人工智能
·
深度学习
·
机器学习
·
cuda
·
mxnet
mxnet 的显存分配机制
MXNet 的显存分配机制在性能优化和资源管理方面起着至关重要的作用。它通过高效的内存管理和调度机制来分配和释放显存,确保在训练深度学习模型时最大限度地利用 GPU 的资源。MXNet 的显存分配机制类似于其他深度学习框架(如 PyTorch 和 TensorFlow),但它有自己的实现细节,主要依赖于 内存池(Memory Pool)机制来避免频繁的显存分配和释放。
SZ170110231
14 天前
mysql
·
cuda
·
银河麒麟
麒麟银河桌面版,成功安装cuda12.6,mysql
首先,你可以使用以下命令查看 nouveau 驱动是否正在运行:如果有输出,说明 nouveau 驱动正在加载。
Hi20240217
14 天前
gpu
·
cuda
·
amd
·
gpgpu
·
rocm
Rocprofiler测试
Rocprofiler测试输出在 ROCm(Radeon Open Compute)平台中,Agent 通常指的是计算设备或处理单元,这些可以是 CPU 或 GPU。每个 Agent 可以执行计算任务并具有自己的计算资源,如计算核心、内存等。在 ROCm 的程序模型中,Agent 是负责执行特定任务的实体,当你使用 ROCm 进行并行计算时,任务通常会分配给不同的 Agent 来处理。Agent 是 ROCm 的异构计算环境中进行任务调度和管理的基本单元之一
程序员小川
16 天前
ai
·
cuda
·
paddle
·
cudnn
Ubuntu22.04安装paddle
使用命令lsb_release -a查看系统版本查看系统支持的cuda版本,使用命令nvidia-smi,最高支持的cuda版本是12.4
大鹅同志
19 天前
运维
·
服务器
·
pytorch
·
jupyter
·
cuda
·
云服务器
在服务器上开Juypter Lab教程(远程访问)
介绍了如何在Linux服务器上配置远程访问的Jupyter Lab环境,包括从Anaconda的安装、Pytorch环境的创建、Jupyter Lab的配置到Node.js的安装步骤。它涵盖了相关命令的解释,例如如何赋予文件执行权限、创建和激活Conda虚拟环境以及配置Jupyter Lab的密码和远程访问。文件还包括一些常见问题的解决方法,如无法访问Jupyter Lab的登录界面、密码错误导致的登录失败以及环境未正确配置等。
一尺丈量
20 天前
c++
·
人工智能
·
ffmpeg
·
cuda
·
硬件解码
ffmpeg硬件解码一般流程
Hi20240217
20 天前
性能优化
·
gpu
·
cuda
·
性能分析
·
gpgpu
RTX3060 FP64测试与猜想
RTX3060 FP64测试与猜想RTX3060 compute capability为8.6,每个SM有2个FP64 core。每个cycle可输出2个fp64的结果
Hi20240217
22 天前
性能优化
·
gpu
·
cuda
·
性能分析
·
gpgpu
smsp__inst_executed_pipe_fp64为什么对不上
smsp__inst_executed_pipe_fp64 为什么对不上
杰克逊的日记
23 天前
cuda
·
nvdia
nvdia和cuda的区别与联系
NVIDIA是一家知名的图形处理器(GPU)制造公司,而CUDA(Compute Unified Device Architecture)是由NVIDIA推出的一种并行计算架构和编程模型。NVIDIA通过其GPU产品提供强大的计算能力,而CUDA则是一种工具,允许开发者使用C/C++、Fortran等编程语言在NVIDIA的GPU上进行通用计算。简单来说,NVIDIA是硬件制造商,而CUDA是NVIDIA提供的一种软件架构和工具,用于充分发挥其GPU的计算潜力。
陈 洪 伟
23 天前
mmu
·
cuda
·
虚拟内存
虚拟内存、内存分段、分页、CUDA编程中的零拷贝
目录1 虚拟地址2 分段管理2.1 为什么分段管理会产生碎片3分页管理4 CUDA编程中的零拷贝参考文献: