Femnist数据集下载与划分

femnist数据集是个手写数字字母识别的数据集,官方来源是Leaf框架,这个框架里面有很多专门给联邦学习用的noniid数据集

官方链接和GitHub链接如下:

LEAF

https://github.com/TalwalkarLab/leaf/tree/master

注:leaf上的环境会用到tensorflow,个人不太习惯这个框架,pytorch版本的可以搜索FedLab,或者只想划分数据集,不需要跑leaf的示例实验可以不用安装tensorflow

把上述GitHub链接的东西git下来,可以看到data里面的femnist数据集,环境我用的3.11,只需要划分数据集的话版本应该没有特殊需求,尽量不要执行requirements,tensorflow很多包会冲突

这里面preprocess.sh是最终执行的脚本,readme里面有附带的参数说明

preprocess目录下是一些处理脚本

其中比较重要的是get_data.sh,这里主要是下载数据集的命令

wget的两个zip文件就是原始数据集,我运行的时候没法裸连下载,所以我这里手动下载,并且放到femnist/data/raw_data路径下再解压,这样就不用执行这个脚本了

byclass是完整的数据集,有80多万张图片,bywrite会少一些

解压之后就可以去femnist路径下运行preprocess.sh脚本了,可以根据自己需求配置参数

划分完后是一些json文件,会在femnist/data路径下的train和test目录里面,每个json文件里面都会有很多user,每个user下有x和y列表,x列表是图片,y列表是图片对应的标签,至此就算是划分好了

相关推荐
QianCenRealSim2 分钟前
Agent时代下的自动驾驶研发工具链的演进
人工智能·机器学习·自动驾驶·agent时代
一只废狗狗狗狗狗狗狗狗狗15 分钟前
机器学习与深度学习理论入门概述
人工智能·深度学习·机器学习
AGI前沿28 分钟前
# 反内卷,回基础:Nano-Memory用极简检索与剪枝,解决大模型长对话遗忘
算法·机器学习
llm大模型算法工程师weng36 分钟前
模型训练与知识蒸馏:从大模型到轻量级情绪分析系统
pytorch·深度学习·机器学习
搞科研的小刘选手40 分钟前
【多省气象局支持】第八届物联网、自动化和人工智能国际学术会议(IoTAAI 2026)
大数据·人工智能·物联网·机器学习·自动化·气象·控制科学
曦樂~1 小时前
【机器学习】回归 Regression
深度学习·机器学习
云和数据.ChenGuang1 小时前
机器学习之预测概率问题
人工智能·深度学习·神经网络·目标检测·机器学习·自然语言处理·语音识别
沅_Yuan2 小时前
基于ARIMA差分自回归移动平均的时间序列预测模型【MATLAB】
机器学习·matlab·arima·时序预测·自回归·移动平均
春末的南方城市2 小时前
SIGGRAPH 2026 | 加州大学&Adobe提出首个可控全景视频生成框架OmniRoam,单图实现360°无限漫游,长时全景视频生成新SOTA。
人工智能·深度学习·机器学习·计算机视觉·aigc
阿拉斯攀登2 小时前
20 个 Android JNI + CMake 生产级示例
android·java·开发语言·人工智能·机器学习·无人售货柜