cuda

FF-Studio2 天前
pytorch·自然语言处理·cuda·unsloth·rtx 50 series
解决 NVIDIA RTX 50 系列 (sm_120) 架构下的 PyTorch 与 Unsloth 依赖冲突发布日期: 2025年12月12日 分类: AI Infrastructure / LLM Training / Troubleshooting 关键词: NVIDIA RTX 5060 Ti, CUDA 13.1, PyTorch 2.9, Unsloth, Dependency Hell, Poetry
FF-Studio2 天前
linux·运维·服务器·cuda
RTX 5060 Ti Linux 驱动黑屏避坑指南:CUDA 13.1, Open Kernel 与 BIOS 设置Ultimate Guide: Installing RTX 5060 Ti Drivers & CUDA 13.1 on Linux (Ubuntu 24.04) - Fixing Black Screens & Device Errors
james bid3 天前
linux·ubuntu·macos·cuda·egpu
MacBook Pro 2015 上 XUbuntu 24.04 启用 eGPU (GeForce GTX 1080 Ti) 和核显黑屏问题解决启用吃灰的老机 MacBook Pro 2015 + eGPU(nvidia) MacBook Pro 2015 上 XUbuntu 24.04 启用 eGPU (GeForce GTX 1080 Ti) 和核显 (iGPU + dGPU),需解决黑屏问题 启动使用了 rEFInd 和 apple_set_os.efi: https://github.com/0xbb/apple_set_os.efi/
Peter·Pan爱编程4 天前
c++·cmake·cuda
cmake 升级我们在构建程序时,经常对cmake有最低版本的要求,当cmake版本不匹配时,cmake构建就会失败,此时就需要升级cmake.本文章以升级到cmake v3.30.4为例,来讲解cmake升级常用的几种方式,供大家批评指正。
Eloudy4 天前
gpu·cuda·arch
cudaEventCreateWithFlags 的 cudaEventInterprocess 和 cudaEventDisableTimingcudaEventCreateWithFlags(&localEvent, cudaEventInterprocess | cudaEventDisableTiming); 解释功能,特性
self-motivation7 天前
cuda·hpc·warp·shfl_xor_sync·dot product
cuda编程 --------- warp 级别规约指令 __shfl_xor_sync__shfl_xor_sync 是 CUDA 中的一种 warp 级别洗牌指令(shuffle instruction),用于在 warp 内的线程之间交换数据。它允许线程直接读取同一 warp 中另一个线程的寄存器值,而无需通过共享内存或全局内存。这样可以实现高效的线程间通信,并减少共享内存的使用。
云雾J视界8 天前
gpu·cuda·高性能计算·thrust·蒙特卡罗·curand·摩根大通
高性能计算新范式:用Thrust和cuRAND库重构蒙特卡罗仿真2022年秋季,摩根大通(JPMorgan Chase)量化技术团队面临一个严峻挑战:其核心风险管理系统Athena平台中,风险价值(Value at Risk, VaR) 模块在极端市场波动期间频繁超时。根据该行在NVIDIA GTC 2023大会公开披露的技术细节(演讲编号S31312),当模拟路径增至100万条/投资组合时,传统CPU集群方案的单次计算耗时超过18分钟——远高于5分钟的业务容忍阈值。
封奚泽优8 天前
git·python·ffmpeg·pip·cuda
Deep-Live-Cam(调试和求助)hacksider/Deep-Live-Cam: real time face swap and one-click video deepfake with only a single imagehttps://github.com/hacksider/Deep-Live-Cam今天调试了一下这个项目,主要的问题就是需要下载的一些资源太慢了,然后就是教程不是很详细,最后的结果感觉没什么效果,不知道是不是要自己额外训练,希望有会的大佬可以指点一下。
喜乐boy10 天前
pytorch·python·conda·cuda·cv
CV系列——Conda + PyTorch + CUDA + cuDNN + Python 环境无脑安装速查笔记[2025.12]CV系列——Conda + PyTorch + CUDA + cuDNN + Python 环境无脑安装速查笔记[2025.12] CV系列——什么是backbone主干网络? yolo系列faster rcnn系列, ssd都用什么backbone主干网络?[2025.11]
veritascxy12 天前
pytorch·自动驾驶·cuda
PyTorch-CUDA镜像支持自动驾驶感知模块训练你有没有经历过这样的场景: 刚接手一个自动驾驶项目,兴冲冲打开代码仓库准备复现SOTA模型,结果一跑 pip install 就报错——CUDA版本不兼容、cuDNN找不到、PyTorch编译失败……🤯 最后花了三天时间配环境,还没开始训练就已经心力交瘁。
云雾J视界12 天前
aigc·api·cpu·stream·gpu·cuda·多并发
多Stream并发实战:用流水线技术将AIGC服务P99延迟压降63%2024年,随着大模型推理成本持续高企,低延迟、高吞吐已成为AIGC(AI Generated Content)服务的生命线。以语音识别为例,用户对实时交互的容忍阈值已压缩至500ms以内——一旦P99延迟突破这一红线,流失率将呈指数级上升。
碧海潮生_CC14 天前
笔记·cuda
【CUDA笔记】05 使用 AMGX 实现泊松图像编辑前几节已经根据入门课程,了解了一些 CUDA 的使用技巧。 这一节想先跳出原本的课程节奏, 找点实际的应用,来看看能否从另一个角度练习一下 CUDA。
Stara051114 天前
pytorch·ubuntu·windows 11·cuda·anaconda·wsl 2·pyrhon
基于WSL 2在Windows 11 构建深度学习开发环境 —— 以Ubuntu、Anaconda、PyCharm及GPU支持为核心本文将详细介绍在 Windows 11 系统中通过 WSL2 架构搭建高效深度学习开发环境的完整流程。将基于Ubuntu子系统,整合Anaconda环境管理工具和PyCharm专业开发环境,特别针对GPU支持进行重点配置,实现从环境准备到模型训练的全流程指导。无论您是偏好 Windows 操作但需要 Linux 开发环境的程序员,还是希望在同一设备上兼顾办公与实验的研究人员,本方案都能为您提供一条可靠且高效的实践路径。
碧海潮生_CC18 天前
笔记·cuda
【CUDA笔记】04 CUDA 归约, 原子操作,Warp 交换前几节处理的问题, 最终一个线程都会对应输出一个结果。今天将讨论的问题, 多个线程将会对应输出一个,或者少于启动线程数量的结果, 称之为 归约(Reduction)。
fpcc22 天前
c++·cuda
并行编程实战——CUDA编程的流的优先级优先级在计算机编程中可谓是无所不在,尽管很多开发者没有什么机会直接操作优先级编程,但实际上听得到地方却非常多。从操作系统的进程优先级到数据队列中处理的优先级,甚至到排队策略的优先级等等。可以说到处都有优先级的影子。 优先级很好理解,就是谁先谁后。举个大家非常熟悉的例子,去银行业务大厅办业务,普通的优先级就是先来先服务;可如果来一个VIP,那就是人家直接越过所有人,先行办理业务。这就是优先级的一个典型的例子。
碧海潮生_CC23 天前
笔记·架构·cuda
【CUDA笔记】03 CUDA GPU 架构与一般的程序优化思路(下)前一节主要从 GPU 的结构方面介绍 Cuda 程序的优化思路, 这一节将主要从 内存结构方面介绍优化思路。
中医正骨葛大夫24 天前
pytorch·深度学习·pycharm·软件安装·cuda·anaconda·配置环境
一文解决如何在Pycharm中创建cuda深度学习环境?想必大家都知道,目前深度学习最好的框架便是用Python编写的PyTorch,而Pycharm作为最受欢迎的Python IDE,广泛被大家用来训练模型。因此本文介绍如何利用Anaconda这个软件来为Pycharm配置环境。
lvxiangyu111 个月前
wsl·cuda·opengl
wsl2 ubuntu24 opengl 无法使用nvidia显卡 解决方法记录我的机器是 amd 7950x + rtx 5070ti。显卡Driver Version: 581.80 CUDA Version: 13.0
李昊哲小课1 个月前
人工智能·pytorch·python·cuda·cudnn
wsl ubuntu24.04 cuda13 cudnn9 pytorch 显卡加速在WSLUbuntu中部署Python3.12、CUDAToolkit和cuDNN的官方下载页面及步骤如下:
wanzhong23331 个月前
深度学习·gpu·cuda·高性能计算
CUDA学习2-CPU和GPU的性能优化latency:完成一个指令的耗时memory latency:从memory获取内存数据等待的时间,是CPU的优化方向