TensorFlow手动加载数据集(以mnist为例)

在进行Mnist手写识别的项目中,出现了Mnist数据集下载出错的问题,报出以下错误:

Exception: URL fetch failure on https://s3.amazonaws.com/img-datasets/mnist.npz: None -- [WinError 10060] 由于连接方在一段时间后没有正确答复或连接的主机没有反应,连接尝试失败。

MNIST数据集包含四个gz文件。这些文件分别包含训练集图像、训练集标签、测试集图像和测试集标签。

你可以从官方网站下载这些文件。以下是MNIST数据集的官方网站链接:http://yann.lecun.com/exdb/mnist/

在该网站上,你可以找到以下四个文件:

  • train-images-idx3-ubyte.gz:训练集图像
  • train-labels-idx1-ubyte.gz:训练集标签
  • t10k-images-idx3-ubyte.gz:测试集图像
  • t10k-labels-idx1-ubyte.gz:测试集标签
    你可以下载这些文件,并将它们保存在本地路径中。然后,你可以使用适当的库(如gzip和numpy)来解压和加载这些文件,以获取MNIST数据集的特征和标签。

以下是一个示例代码,演示如何加载MNIST数据集的图像和标签:

python 复制代码
import gzip
import numpy as np

def load_mnist_images(path):
    with gzip.open(path, 'rb') as f:
        # 跳过文件头
        f.read(16)
        # 读取图像数据
        buf = f.read()
        # 将字节数据转换为numpy数组
        data = np.frombuffer(buf, dtype=np.uint8)
        # 重新整形为图像数组
        data = data.reshape(-1, 28, 28)
        return data

def load_mnist_labels(path):
    with gzip.open(path, 'rb') as f:
        # 跳过文件头
        f.read(8)
        # 读取标签数据
        buf = f.read()
        # 将字节数据转换为numpy数组
        labels = np.frombuffer(buf, dtype=np.uint8)
        return labels

# 指定文件路径
train_images_path = 'path_to_train-images-idx3-ubyte.gz'
train_labels_path = 'path_to_train-labels-idx1-ubyte.gz'
test_images_path = 'path_to_t10k-images-idx3-ubyte.gz'
test_labels_path = 'path_to_t10k-labels-idx1-ubyte.gz'

# 加载训练集图像和标签
train_images = load_mnist_images(train_images_path)
train_labels = load_mnist_labels(train_labels_path)

# 加载测试集图像和标签
test_images = load_mnist_images(test_images_path)
test_labels = load_mnist_labels(test_labels_path)

# 打印数据集信息
print("训练集样本数量:", train_images.shape[0])
print("测试集样本数量:", test_images.shape[0])
print("输入特征形状:", train_images[0].shape)
print("标签形状:", train_labels.shape)

# 进行模型训练和评估的代码可以继续编写...
相关推荐
虫无涯8 分钟前
LangSmith:大模型应用开发的得力助手
人工智能·langchain·llm
算家计算20 分钟前
DeepSeek-R1论文登《自然》封面!首次披露更多训练细节
人工智能·资讯·deepseek
weiwenhao1 小时前
关于 nature 编程语言
人工智能·后端·开源
神经星星1 小时前
训练成本29.4万美元,DeepSeek-R1登Nature封面,首个通过权威期刊同行评审的主流大模型获好评
人工智能
神州问学1 小时前
【AI洞察】别再只想着“让AI听你话”,人类也需要学习“适应AI”!
人工智能
DevUI团队1 小时前
🚀 MateChat V1.8.0 震撼发布!对话卡片可视化升级,对话体验全面进化~
前端·vue.js·人工智能
聚客AI1 小时前
🎉7.6倍训练加速与24倍吞吐提升:两项核心技术背后的大模型推理优化全景图
人工智能·llm·掘金·日新计划
黎燃2 小时前
当 YOLO 遇见编剧:用自然语言生成技术把“目标检测”写成“目标剧情”
人工智能
算家计算2 小时前
AI教母李飞飞团队发布最新空间智能模型!一张图生成无限3D世界,元宇宙越来越近了
人工智能·资讯
掘金一周2 小时前
Flutter Riverpod 3.0 发布,大规模重构下的全新状态管理框架 | 掘金一周 9.18
前端·人工智能·后端