【昇思初学入门】第三天打卡

数据集Dataset

心得体会

  1. 昇思提供了丰富的数据集,文本、图像、音频等都有内置
  2. MindSpore的Pipeline设计和并行处理能力使得数据预处理更加高效
  3. 可通过GeneratorDataset接口实现自定义方式的数据集加载
  4. 可迭代的数据集,可以通过迭代的方式逐步获取数据样本,生成器generator也属于可迭代的数据集类型

笔记

  1. 数据获取
python 复制代码
import numpy as np
from mindspore.dataset import vision
from mindspore.dataset import MnistDataset, GeneratorDataset
import matplotlib.pyplot as plt
# Download data from open datasets
from download import download

url = "https://mindspore-website.obs.cn-north-4.myhuaweicloud.com/" \
      "notebook/datasets/MNIST_Data.zip"
path = download(url, "./", kind="zip", replace=True)

这里找数据集:https://www.mindspore.cn/docs/zh-CN/r2.3.0rc2/api_python/mindspore.dataset.html

2.数据迭代

python 复制代码
# shuffle 消除数据排列造成的分布不均问题,及打乱数据顺序
train_dataset = MnistDataset("MNIST_Data/train", shuffle=True)
def visualize(dataset):
    figure = plt.figure(figsize=(4, 4))
    cols, rows = 3, 3

    plt.subplots_adjust(wspace=0.5, hspace=0.5)

    for idx, (image, label) in enumerate(dataset.create_tuple_iterator()):
        figure.add_subplot(rows, cols, idx + 1)
        plt.title(int(label))
        plt.axis("off")
        plt.imshow(image.asnumpy().squeeze(), cmap="gray")
        if idx == cols * rows - 1:
            break
    plt.show()
  1. 数据预处理
python 复制代码
#图像统一除以255,数据类型由uint8转为了float32
train_dataset = train_dataset.map(vision.Rescale(1.0 / 255.0, 0), input_columns='image')
相关推荐
逻辑君30 分钟前
认知神经科学研究报告【20260018】
人工智能·神经网络
AI医影跨模态组学31 分钟前
如何将纵向CT影像组学特征与局部晚期胃癌化疗时空异质性及耐药演化建立关联,并进一步解释其与化疗响应、淋巴结转移及生存预后的机制联系
人工智能·深度学习·论文·医学·医学影像·影像组学
硅谷秋水3 小时前
ClawVM:有状态工具LLM智体的Harness管理型虚拟内存
人工智能·深度学习·语言模型
春风有信3 小时前
【DM】DDPM与DDIM的数学原理
人工智能·深度学习·机器学习
T.i.s4 小时前
总变差正则化(TV Loss)的思考
人工智能·pytorch·深度学习
zh路西法4 小时前
【RDKX5多摄像头模型推理】USB带宽限制与ROS2话题零拷贝转发
linux·c++·python·深度学习
AI医影跨模态组学5 小时前
如何将多模态CT深度学习特征与肿瘤微环境中的免疫相关生物学过程建立关联,并进一步解释其与非小细胞肺癌新辅助免疫化疗后的pCR机制联系
人工智能·深度学习·论文·医学·医学影像·影像组学
2zcode5 小时前
基于深度学习的香梨产量预测系统设计与实现
人工智能·深度学习
机器学习之心5 小时前
RNN隐状态机制解析
深度学习
txg6665 小时前
VulCNN:多视图图表征驱动的可扩展漏洞检测体系
人工智能·深度学习·安全·网络安全