2024-2-27 学习笔记（Pytorch训练提速，视觉大模型简介，SAM标注流程优化）

一个中年程序员的自我修养2024-03-03 15:44

**摘要：**这篇文章提供了8个PyTorch的训练加速技巧，包括优化硬件、测试训练瓶颈、图片解码、数据增强加速、数据预读取、多GPU并行处理、混合精度训练以及其他细节。通过这些技巧，可以提高PyTorch训练大型数据集的速度。

**Raiden说：**实操性很强的指导。对于训练速度，学生在实验室很难感知。真正的现场环境，往往也是产品的重要指标之一。目前客户能忍受的训练时长最多也就四五个小时，Yolov8的模型勉强能达到这个训练速度。

**摘要：**这篇文章详细介绍了视觉大模型的基础模型、预训练、对话式的视觉语言模型以及其他相关内容。它探讨了视觉系统对于理解和推理视觉场景的重要性，并介绍了一些生成式学习的方法和预训练数据集。此外，文章还讨论了基于对话式的视觉语言模型和一些应用领域的具体模型，如医学图像分割、遥感图像分割和导航规划。

Raiden说：此文章可以和多模态大模型综述论文《Multimodal Foundation Models:From Specialists to General-Purpose Assistants》一起学习。

3.使用Segment Anything(SAM)模型进行自动标注

**摘要：**Meta开源了一个图像分割模型【SegmentAnything Model】，简称SAM模型，号称分割一切，在短短开源的一周内，截止今天Github已经24k的star了！该模型可以用于自动标注图像数据集。

**Raiden说：**之所以点名这一篇文章，不是想再去介绍下SAM。截止到现在，各家AI平台，如果不支持SAM，恐怕也实在过于落伍了。

点名的意义是发现这个开源标注工具有个细节："先选择类别再标注"。而一般的标注流程都是先标注再选类别。显然，某些场景只需要连续的批量的标注某一类时，"先选择类别再标注"操作效率更高。标注软件后续可以考虑加入这一设置。