pytorch

Suryxin.34 分钟前
人工智能·pytorch·深度学习·ai·vllm
从0开始复现nano-vllm「model_runner-py」下半篇之核心数据编排与执行引擎调度prepare_prefill 函数的作用,本质上是为大模型推理中的 prefill 阶段做一次完整的数据整理与运行时环境构建,它并不是简单地把多个序列拼接起来,而是在一个支持 block 级 KV cache、prefix cache 复用以及 FlashAttention 的高性能推理框架中,将多个变长、可能部分已缓存的序列,转换成一次可以直接送入 GPU kernel 执行的结构化输入。
weixin_468466851 天前
人工智能·pytorch·深度学习·c#·跨平台·onnx·语义分割
PyTorch导出ONNX格式分割模型及在C#中调用预测ONNX(Open Neural Network Exchange)是一种开放的神经网络交换格式,旨在促进不同深度学习框架之间的互操作性。它使用protobuf二进制格式来序列化模型,从而提供更好的传输性能。
七夜zippoe2 天前
人工智能·pytorch·python
PyTorch深度革命:从自动微分到企业级应用在2012年,我手写反向传播时,一个简单网络要调3天。2015年,我用Caffe,被prototxt和C++ 虐到怀疑人生。直到2017年遇到PyTorch,第一次感受到动态图的爽快。今天,让我们深入探索PyTorch如何用动态计算图改变深度学习游戏规则。
好的收到1112 天前
pytorch·笔记·深度学习
PyTorch深度学习(小土堆)笔记3:小土堆 Dataset 类实战笔记,99% 的新手都踩坑!看完秒懂数据加载底层逻辑!Hello 大家好!这是我跟着“小土堆”深度学习打卡的第3条笔记。今天要攻克的是 PyTorch 数据处理的核心 —— Dataset 类。不管是做图像分类还是目标检测,第一步永远是把数据“喂”给模型。而 Dataset 就是那个最辛苦的“工具人”。
小lo想吃棒棒糖2 天前
人工智能·pytorch·python
思路启发:超越Transformer的无限上下文:SSM-Attention混合架构的理论分析作者: 小lo爱吃棒棒糖¹, GLM-5²本文研究一种结合状态空间模型(SSM/Mamba)线性推理效率与Transformer精确回忆能力的混合架构。我们建立了严格的数学框架,证明该混合架构在保持10810^8108量级Token上下文窗口的同时,可实现推理成本的次线性增长O(Nα)\mathcal{O}(N^\alpha)O(Nα),其中α<1\alpha < 1α<1。主要理论贡献包括:(1) 证明SSM的长程记忆容量上界与状态维度的指数关系;(2) 给出Attention-SSM混合层的最优分配策
励ℳ2 天前
人工智能·pytorch·深度学习
【CNN网络入门】基于PyTorch的MNIST手写数字识别:从数据准备到模型部署全流程详解手写数字识别是计算机视觉领域的经典入门项目,MNIST数据集包含了大量0-9的手写数字图片,是深度学习入门的"Hello World"。本文将详细介绍如何使用PyTorch框架构建一个卷积神经网络(CNN)来识别MNIST手写数字,并展示完整的训练、评估和可视化流程。
大连好光景3 天前
pytorch·python·深度学习
GCN模型构建+训练+测试入门案例参考文档:https://zhuanlan.zhihu.com/p/538901776完整代码如下:这是一个非常经典的图卷积神经网络(Graph Convolutional Network, GCN)入门代码,通常用于节点分类任务(比如判断论文属于哪个领域)。
Lun3866buzha3 天前
pytorch·算法·分类
紧固件智能检测与分类_ATSS_R101_FPN_1x_COCO算法解析与Pytorch实现在工业制造领域,紧固件的检测与分类是质量控制的重要环节。传统的人工检测方式效率低下且容易出错,而基于计算机视觉的自动检测技术则能大幅提高检测精度和效率。本文将介绍一种基于ATSS(Anchors-free Two-Stage)算法的紧固件智能检测与分类系统,该系统结合了ResNet-101作为骨干网络、FPN作为特征金字塔网络,并在COCO数据集上进行训练。我们将深入解析算法原理,并提供Pytorch实现代码,帮助读者快速上手这一技术。
power 雀儿3 天前
pytorch·深度学习·机器学习
LibTorch张量基础1D的张量 步长也是stride={1}2D张量 步长为{列数,1}3D张量 步长为{行×列,列,1}
查无此人byebye4 天前
人工智能·pytorch·python·深度学习·音视频
实战DDPM扩散模型:MNIST手写数字生成+FID分数计算(完整可运行版)扩散模型(Diffusion Model)作为当下生成式AI的核心技术,在图像生成领域展现出了惊人的效果。本文将从代码层面逐行拆解一个完整可运行的DDPM(Denoising Diffusion Probabilistic Models)实现,基于MNIST数据集完成手写数字生成,并集成FID(Fréchet Inception Distance)指标量化生成效果。
Suryxin.4 天前
人工智能·pytorch·深度学习·vllm
从0开始复现nano-vllm「ModelRunner.capture_cudagraph()」为什么需要 CUDA Graph?在 LLM 推理等小算子、高频次的场景中,CPU 逐个调度任务的开销往往比 GPU 实际计算的时间还要长,导致 GPU 大量空闲等待;CUDA Graph 通过将一系列 GPU 操作“录制”为静态图,在执行时只需一次 CPU 指令即可驱动整个计算流程,从而彻底消除 CPU 调度瓶颈,填满 GPU 流水线,显著降低推理延迟。
宁远x4 天前
人工智能·pytorch·深度学习·云计算
【万字长文】PyTorch FSDP 设计解读与性能分析本文首先介绍了FSDP的原理和流程,包括参数分片策略、通算掩盖方式以及训练各阶段的执行逻辑。然后结合实验数据,对不同FSDP配置下的性能进行了分析和拆解,明确各个参数对训练速度和显存的影响。最后,简单介绍了FSDP2的原理和优势,并针对LORA训练这一优势场景,与FSDP进行了对比分析。本文不涉及源码的讲解,适合入门分布式训练。
何伯特4 天前
人工智能·pytorch·深度学习
PyTorch基本用法介绍:从零开始构建深度学习工作流2017年诞生的PyTorch,如今已是深度学习研究与工业部署的事实标准。它的成功并非偶然——动态计算图、Pythonic的编程范式、完整的生态工具链,让研究人员能够“像写NumPy一样写神经网络”。
All The Way North-4 天前
pytorch·rnn·深度学习·神经网络·lstm·序列模型·理论与工程
【LSTM系列·第三篇】单样本 vs Batch:LSTM全流程计算对比,彻底搞懂为何 h_t 与 c_t 维度必须相同由于字数限制,本篇是【LSTM系列】第三篇第一篇链接:【LSTM系列·第一篇】彻底搞懂:细胞状态、隐藏状态、候选状态、遗忘门——新手最晕的4个概念,一篇厘清 第二篇链接:【LSTM系列·第二篇】彻底搞懂输入门、输出门与LSTM全流程:维度分析+PyTorch工程实现
L念安dd5 天前
人工智能·pytorch·python
基于 PyTorch 的轻量推荐系统框架📖【项目地址】https://github.com/datawhalechina/torch-rechub
bst@微胖子5 天前
人工智能·pytorch·python
PyTorch深度学习框架项目合集一问题扩展:1、这里的x_train, y_train, x_valid, y_valid是怎么来的?总结:
骇城迷影5 天前
人工智能·pytorch·python·gpt·深度学习
从零复现GPT-2 124M本课程是Andrej Karpathy「0 to Hero」系列的核心章节,目标是从零复现GPT-2 124M参数模型——从加载OpenAI预训练权重验证模型正确性,到完全随机初始化参数、基于高质量数据集从零训练,最终实现性能对标甚至超越原版GPT-2。
zhangfeng11335 天前
人工智能·pytorch·语言模型·github
GitHub 知名博主 hiyouga 及其明星项目 LlamaFactory项目介绍 详细介绍在人工智能技术快速发展的今天,开源社区已成为推动大模型技术进步的重要力量。GitHub 作为全球最大的开源代码托管平台,汇聚了众多优秀的开发者和项目。本研究聚焦于 GitHub 知名博主 hiyouga 及其明星项目 LlamaFactory,旨在全面了解该博主的技术影响力,并深入分析其核心项目的技术价值。
查无此人byebye6 天前
人工智能·pytorch·深度学习·架构·cnn·音视频·transformer
从DDPM到DiT:扩散模型3大核心架构演进|CNN到Transformer的AIGC生成革命(附实操要点)🔥 前言:在AIGC生成领域,扩散模型早已成为绝对主流——从 Stable Diffusion 到 Sora,从图像生成到视频合成,背后都离不开三大核心技术的迭代支撑。DDPM 奠定理论基石,ContextUNet 实现可控生成,DiT 用Transformer掀起架构革命,三者串联起扩散模型从实验室走向工业化应用的完整路径。
love530love6 天前
c++·人工智能·pytorch·windows·python·cuda·bitnet
突破 Windows 编译禁区:BitNet 1-bit LLM 推理框架 GPU 加速部署编译 BitNet CUDA 算子全记录microsoft/BitNet:1位大型语言模型的官方推理框架微软开源的 BitNet 推理框架 代表了 1-bit 量化技术(1.58b)的工业级落地。然而,官方项目对 GPU 的支持主要侧重于 Linux 环境。在 Windows 11 下尝试编译其核心算子 bitlinear_cuda 时,开发者往往会撞上一堵由 MSVC 编译器、CUDA 13 兼容性和 PyTorch 底层头文件冲突构成的“技术墙”。