技术栈
nvidia
安全二次方security²
5 小时前
c++
·
人工智能
·
nvidia
·
cuda
·
内存空间谓词函数
·
内存空间转化函数
·
address space
CUDA C++编程指南(7.15&16)——C++语言扩展之内存空间谓词和转化函数
如果参数是空指针,本节描述的函数行为未定义。如果ptr包含全局内存空间中对象的通用地址,则返回1,否则返回0。
安全二次方security²
9 小时前
c++
·
人工智能
·
nvidia
·
cuda
·
内存栅栏函数
·
同步函数
·
syncthreads
CUDA C++编程指南(7.5&6)——C++语言扩展之内存栅栏函数和同步函数
CUDA编程模型假设设备采用弱序内存模型(weakly-ordered memory model),这意味着CUDA线程将数据写入共享内存、全局内存、页锁定主机内存或对等设备内存的顺序,并不一定是另一个CUDA线程或主机线程观测到的写入顺序。若两个线程在没有同步的情况下对同一内存位置进行读写操作,将导致未定义行为。
安全二次方security²
2 天前
c++
·
人工智能
·
nvidia
·
cuda
·
内存空间指定符
·
__shared__
·
__device__
CUDA C++编程指南(7.2)——C++语言扩展之变量内存空间指定符
变量内存空间指定符表示设备上变量的内存位置。在设备代码中声明的自动变量,如果未使用本节描述的__device__、__shared__或__constant__内存空间限定符,通常存放在寄存器中。但在某些情况下,编译器可能会选择将其放置在本地内存中,这可能会对性能产生不利影响,具体细节请参阅设备内存访问。
安全二次方security²
2 天前
c++
·
人工智能
·
nvidia
·
cuda
·
cuda编程
·
global
·
函数执行空间指定符
CUDA C++编程指南(7.1)——C++语言扩展之函数执行空间指定符
函数执行空间限定符用于指定函数是在主机上执行还是在设备上执行,以及是否可以从主机或设备调用。__global__执行空间说明符将函数声明为内核。此类函数具有以下特性:
云雾J视界
3 天前
服务器
·
人工智能
·
nvidia
·
算力
·
buck
·
dgx
·
交错并联
AI服务器供电革命:为何交错并联Buck成为算力时代的必然选择
数据中心机房的低鸣,如今已演变为AI算力洪流的咆哮。根据Synergy Research Group的数据,2023年全球超大规模数据中心数量已突破900座,其中用于AI训练的算力集群正以每年超过50%的复合增长率膨胀。一个更具冲击力的事实是:单颗NVIDIA H100 GPU的峰值功耗已突破700瓦,而一个满载8颗H100的DGX服务器节点,瞬时功率需求可达6千瓦以上。这不仅仅是一个数字,它意味着供电网络必须在微秒级别内,稳定、高效地应对高达数千安培的电流瞬态变化。
40324073
6 天前
linux
·
opencv
·
计算机视觉
·
nvidia
·
cuda
·
jetson
【2026最新】Jetson全系列安装支持CUDA加速的OpenCV 4.10保姆级教程(适配Jetpack 6/5及Orin/Xavier/Nano等)
在 NVIDIA Jetson 边缘计算平台上(如 Jetson AGX Orin, Orin NX, Xavier NX, Nano 等),如果你设备的 OpenCV 不支持 CUDA 加速(仅 CPU 版本)。对于从事计算机视觉(CV)开发的工程师来说,无法利用 GPU 加速会极大地限制模型推理、图像预处理的效率。
REDcker
13 天前
架构
·
gpu
·
显卡
·
nvidia
·
cuda
·
英伟达
·
演进
Nvidia英伟达显卡型号发布史与架构演进详解
英伟达显卡的发展史,核心主线是 GPU架构的迭代 与 GeForce产品线的演进。以下将按时间顺序,为您梳理两大主线的关键节点。
scott198512
15 天前
线性代数
·
矩阵
·
gpu
·
nvidia
·
cuda
NVIDIA GPU内部结构:高性能矩阵乘法内核剖析
在这篇文章中,我们将逐步介绍支撑最先进的 NVIDIA GPU 矩阵乘法 (matmul) 内核的所有核心硬件概念和编程技术。
clorisqqq
17 天前
nvidia
·
黄仁勋
·
ces2026
黄仁勋 CES 2026 演讲笔记(part2 精华)
主题主线:Agentic Enterprise AI(企业级智能体系统) → Physical AI(物理 AI) → 三台电脑范式(训练 / 推理 / 仿真) → 合成数据 → Cosmos 世界基础模型 → Alpamayo 推理式自动驾驶
扫地的小何尚
17 天前
人工智能
·
python
·
算法
·
开源
·
nvidia
·
1024程序员节
NVIDIA RTX PC开源AI工具升级:加速LLM和扩散模型的性能革命
在人工智能快速发展的今天,PC端的AI开发活动正在经历爆炸式增长。这一趋势的驱动力来自于小型语言模型(SLMs)和扩散模型质量的显著提升,如FLUX.2、GPT-OSS-20B和Nemotron 3 Nano等模型的出现。与此同时,ComfyUI、llama.cpp、Ollama和Unsloth等AI PC框架也在不断进行功能升级,其受欢迎程度在过去一年中翻了一番,使用PC级模型的开发者数量更是增长了十倍。开发者们不再仅仅是在实验生成式AI工作流,而是在NVIDIA GPU上构建下一代软件栈,从数据中心延
@hdd
18 天前
nvidia
·
dcgm
dcgmi diag报错Diagnostic can only be performed on a homogeneous group of GPUs.
dcgmi diag -r 3DCGM 诊断要求在完全同构的 GPU 组上运行,同构指:检查点:检查点:
墨风如雪
20 天前
aigc
·
nvidia
英伟达Rubin炸场:算力暴涨5倍,黄仁勋要让AI推理“白菜价”
2026年的CES注定会被载入科技史册。并没有像往常那样掏出一张能跑满光追的新游戏显卡,黄仁勋穿着标志性的皮衣,站在拉斯维加斯的聚光灯下,直接把整个数据中心搬上了舞台。这一次,他的手里不再只是拿着一颗芯片,而是一张通往这一代AI终极形态的门票——Vera Rubin AI计算平台。
chinamaoge
22 天前
nvidia
·
大模型推理
·
tensorrt-llm
NVIDIA大模型推理框架:TensorRT-LLM软件流程(三)trtllm-serve启动流程–HTTP Request
流程图:我有出现过修改C++ 代码,python3 ./scripts/build_wheel.py编译不生效的问题,编译过程中都出现修改报错,但是就是没有生效。 最好的方式是先pip unistall tensorrt_llm,然后再pip install ./build/tensorrt_llm*.whl, 直接安装会因为版本相同可能没有安装的情况
闻道且行之
25 天前
linux
·
运维
·
ubuntu
·
nvidia
·
p40
Ubuntu 20.04 下 NVIDIA Tesla P40 驱动安装指南(核显桌面 + 计算卡分离方案)
NVIDIA Tesla P40 作为一款定位专业计算的 GPU,硬件层面无视频输出能力,无法直接驱动图形化桌面。在 Ubuntu 20.04 系统中,若要同时实现核显输出桌面与P40 提供算力的需求,需采用 “驱动分离” 方案。 本指南针对 Intel 核显 + Tesla P40 硬件组合,解决传统驱动安装中 “启用 P40 则桌面黑屏,切换核显则 P40 失效” 的矛盾,通过驱动适配、内核模块配置、开机自启设置等步骤,实现两者协同工作。教程兼顾新手友好性与专业性,既保证图形界面正常运行,又能让 P4
AI视觉网奇
1 个月前
笔记
·
nvidia
NVIDIA 生成key
访问正确的位置:登录 NVIDIA NGC 官网。AI构建项目 bash 进入个人设置:点击右上角你的个人头像,在下拉菜单中选择 “Setup”(设置)。
张火火isgudi
1 个月前
linux
·
运维
·
视频编解码
·
nvidia
fedora43 安装 nvidia 驱动以及开启视频编解码硬件加速
参考官网文档 Fedora Wiki Howto/NVIDIA,以及 Fedora WIKI 中关于视频编解码驱动安装 Hardware Video Acceleration.
AI大模型学徒
1 个月前
pytorch
·
nvidia
·
cudnn
·
nimiconda
·
5090驱动安装
·
cudatoolkit
5090NVIDIA、CUDAToolkit、cuDNN、Miniconda、PyTorch安装
经查询从官网下载 RTX5090驱动报错没权限后显示🔹 建议(AI / GPU 开发场景)你做智能体开发、Docker + GPU、PyTorch / CUDA → 推荐用 .run 文件安装最新驱动(580 系)
驱动探索者
1 个月前
ai
·
nvidia
[缩略语大全]之[NVIDIA]篇
了解一个领域最快的方式就是先了解一些缩略语,今天我们一起学习一下当下比较火热的NVIDIA相关的缩略语
扫地的小何尚
1 个月前
人工智能
·
深度学习
·
算法
·
llm
·
gpu
·
量子计算
·
nvidia
NVIDIA CUDA-Q QEC权威指南:实时解码、GPU解码器与AI推理增强
容错量子计算机的实现离不开实时解码。通过使解码器与量子处理单元(QPU)并行低延迟运行,我们可以在相干时间内对设备应用纠错,从而防止错误累积,确保计算结果的有效性。这一过程既可以在线(使用真实量子设备)完成,也可以离线(使用模拟量子处理器)完成。
玄德公笔记
2 个月前
docker
·
kubernetes
·
gpu
·
containerd
·
nvidia
·
runtime
·
fabricmanager
GPU节点接入k8s集群的处理
修改/etc/containerd/config.toml 文件中:为了便于找到,贴出整段内容:还用注意:SystemdCgroup = true,如果你之前安装containerd没有修改,这里一定要改过来。