共享内存和Pytorch中的Dataloader结合

dataloader中通常使用num_workers来指定多线程来进行数据的读取。可以使用共享内存进行加速。

代码地址:https://github.com/POSTECH-CVLab/point-transformer/blob/master/util/s3dis.py

文章目录

    • [1. 共享内存和dataloader结合](#1. 共享内存和dataloader结合)
      • [1.1 在init中把所有的data存储到共享内存中](#1.1 在init中把所有的data存储到共享内存中)
      • [1.2 在getitem从共享内存中读出data](#1.2 在getitem从共享内存中读出data)
    • [2. 怎么查询key在不在共享内存中](#2. 怎么查询key在不在共享内存中)
    • [3. 共享内存的地址是什么,怎么查看](#3. 共享内存的地址是什么,怎么查看)
    • [4. 共享内存有多大](#4. 共享内存有多大)
    • [5. 共享怎么删除](#5. 共享怎么删除)

1. 共享内存和dataloader结合

复制代码
class S3DIS(Dataset):
    def __init__(self, split='train', data_root='trainval', test_area=5, voxel_size=0.04, voxel_max=None, transform=None, shuffle_index=False, loop=1):
        super().__init__()
        self.split, self.voxel_size, self.transform, self.voxel_max, self.shuffle_index, self.loop = split, voxel_size, transform, voxel_max, shuffle_index, loop
        data_list = sorted(os.listdir(data_root))
        data_list = [item[:-4] for item in data_list if 'Area_' in item]
        if split == 'train':
            self.data_list = [item for item in data_list if not 'Area_{}'.format(test_area) in item]
        else:
            self.data_list = [item for item in data_list if 'Area_{}'.format(test_area) in item]
        for item in self.data_list:
            if not os.path.exists("/dev/shm/{}".format(item)):
                data_path = os.path.join(data_root, item + '.npy')
                data = np.load(data_path)  # xyzrgbl, N*7
                sa_create("shm://{}".format(item), data)
        self.data_idx = np.arange(len(self.data_list))
        print("Totally {} samples in {} set.".format(len(self.data_idx), split))

    def __getitem__(self, idx):
        data_idx = self.data_idx[idx % len(self.data_idx)]
        data = SA.attach("shm://{}".format(self.data_list[data_idx])).copy()
        coord, feat, label = data[:, 0:3], data[:, 3:6], data[:, 6]
        coord, feat, label = data_prepare(coord, feat, label, self.split, self.voxel_size, self.voxel_max, self.transform, self.shuffle_index)
        return coord, feat, label

    def __len__(self):
        return len(self.data_idx) * self.loop

1.1 在init中把所有的data存储到共享内存中

复制代码
for item in self.data_list:
    if not os.path.exists("/dev/shm/{}".format(item)):
        data_path = os.path.join(data_root, item + '.npy')
        data = np.load(data_path)  # xyzrgbl, N*7
        sa_create("shm://{}".format(item), data)

key就是文件名,存储在self.data_list中

1.2 在getitem从共享内存中读出data

复制代码
data = SA.attach("shm://{}".format(self.data_list[data_idx])).copy()

2. 怎么查询key在不在共享内存中

os.path.exists("/dev/shm/{}".format(item))能够查询该key在不在共享内存中。

3. 共享内存的地址是什么,怎么查看

复制代码
$ ls /dev/shm  
Area_5_hallway

通过/dev/shm地址访问,但是这部分数据存储在内存中。

4. 共享内存有多大

复制代码
$ df -h   
Filesystem      Size  Used Avail Use% Mounted on
tmpfs           7.8G   44M  7.8G   1% /dev/shm

大小是物理内存的一半

5. 共享怎么删除

复制代码
SA.delete("shm://{}".format('Area_5_hallway'))

SA.delete删除key

相关推荐
snow_star_dream4 分钟前
(笔记)VSC python应用--函数补全注释添加
笔记·python
郝学胜-神的一滴15 分钟前
Python中的Mixin继承:灵活组合功能的强大模式
开发语言·python·程序人生
叫我:松哥16 分钟前
基于python强化学习的自主迷宫求解,集成迷宫生成、智能体训练、模型评估等
开发语言·人工智能·python·机器学习·pygame
2301_7644413320 分钟前
2025年YOLO算法案例应用领域应用趋势
python·yolo
汗流浃背了吧,老弟!29 分钟前
构建RAG系统时,如何选择合适的嵌入模型(Embedding Model)?
人工智能·python·embedding
爱编码的傅同学34 分钟前
【线程同步】信号量与环形队列的生产消费模型
linux·windows·ubuntu·centos
盐真卿39 分钟前
python第四部分:模块(每日更新)
开发语言·python
喵手1 小时前
Python爬虫零基础入门【第九章:实战项目教学·第2节】“接口优先“项目:从 Network 还原 JSON 接口分页!
爬虫·python·python爬虫实战·python爬虫工程化实战·python爬虫零基础入门·接口优先·json接口分页
菜鸟‍1 小时前
【论文学习】重新审视面向持续图像分割的基于查询的 Transformer || 用于二分类图像分割的多视图聚合网络
人工智能·学习·计算机视觉
将心ONE1 小时前
QwenTTS 预设音色
python