Femnist数据集下载与划分

femnist数据集是个手写数字字母识别的数据集,官方来源是Leaf框架,这个框架里面有很多专门给联邦学习用的noniid数据集

官方链接和GitHub链接如下:

LEAF

https://github.com/TalwalkarLab/leaf/tree/master

注:leaf上的环境会用到tensorflow,个人不太习惯这个框架,pytorch版本的可以搜索FedLab,或者只想划分数据集,不需要跑leaf的示例实验可以不用安装tensorflow

把上述GitHub链接的东西git下来,可以看到data里面的femnist数据集,环境我用的3.11,只需要划分数据集的话版本应该没有特殊需求,尽量不要执行requirements,tensorflow很多包会冲突

这里面preprocess.sh是最终执行的脚本,readme里面有附带的参数说明

preprocess目录下是一些处理脚本

其中比较重要的是get_data.sh,这里主要是下载数据集的命令

wget的两个zip文件就是原始数据集,我运行的时候没法裸连下载,所以我这里手动下载,并且放到femnist/data/raw_data路径下再解压,这样就不用执行这个脚本了

byclass是完整的数据集,有80多万张图片,bywrite会少一些

解压之后就可以去femnist路径下运行preprocess.sh脚本了,可以根据自己需求配置参数

划分完后是一些json文件,会在femnist/data路径下的train和test目录里面,每个json文件里面都会有很多user,每个user下有x和y列表,x列表是图片,y列表是图片对应的标签,至此就算是划分好了

相关推荐
我感觉。42 分钟前
【机器学习chp11】聚类(K均值+高斯混合模型+层次聚类+基于密度的聚类DBSCAN+基于图的聚类+聚类的性能评价指标)
人工智能·机器学习·聚类·k均值
IT古董1 小时前
【漫话机器学习系列】125.普拉托变换(Platt Scaling)
人工智能·机器学习
神经星星1 小时前
【vLLM 教程】使用 TPU 安装
数据库·人工智能·机器学习
Wis4e2 小时前
基于PyTorch的深度学习4——使用numpy实现机器学习vs使用Tensor及Antograd实现机器学习
pytorch·深度学习·机器学习
性感博主在线瞎搞2 小时前
【神经网络】python实现神经网络(一)——数据集获取
人工智能·python·深度学习·神经网络·机器学习·手写数字识别
极客BIM工作室2 小时前
大话机器学习三大门派:监督、无监督与强化学习
人工智能·机器学习
从入门-到精通4 小时前
线性代数在机器学习中的理论与实践
人工智能·深度学习·神经网络·线性代数·决策树·机器学习·计算机视觉
@心都5 小时前
机器学习数学基础:44.多元线性回归
人工智能·机器学习·线性回归
IT猿手5 小时前
2025最新群智能优化算法:海市蜃楼搜索优化(Mirage Search Optimization, MSO)算法求解23个经典函数测试集,MATLAB
开发语言·人工智能·算法·机器学习·matlab·机器人
平凡而伟大(心之所向)13 小时前
机器学习的发展史
机器学习