Femnist数据集下载与划分

femnist数据集是个手写数字字母识别的数据集,官方来源是Leaf框架,这个框架里面有很多专门给联邦学习用的noniid数据集

官方链接和GitHub链接如下:

LEAF

https://github.com/TalwalkarLab/leaf/tree/master

注:leaf上的环境会用到tensorflow,个人不太习惯这个框架,pytorch版本的可以搜索FedLab,或者只想划分数据集,不需要跑leaf的示例实验可以不用安装tensorflow

把上述GitHub链接的东西git下来,可以看到data里面的femnist数据集,环境我用的3.11,只需要划分数据集的话版本应该没有特殊需求,尽量不要执行requirements,tensorflow很多包会冲突

这里面preprocess.sh是最终执行的脚本,readme里面有附带的参数说明

preprocess目录下是一些处理脚本

其中比较重要的是get_data.sh,这里主要是下载数据集的命令

wget的两个zip文件就是原始数据集,我运行的时候没法裸连下载,所以我这里手动下载,并且放到femnist/data/raw_data路径下再解压,这样就不用执行这个脚本了

byclass是完整的数据集,有80多万张图片,bywrite会少一些

解压之后就可以去femnist路径下运行preprocess.sh脚本了,可以根据自己需求配置参数

划分完后是一些json文件,会在femnist/data路径下的train和test目录里面,每个json文件里面都会有很多user,每个user下有x和y列表,x列表是图片,y列表是图片对应的标签,至此就算是划分好了

相关推荐
南方的狮子先生1 小时前
【深度学习】卷积神经网络(CNN)入门:看图识物不再难!
人工智能·笔记·深度学习·神经网络·机器学习·cnn·1024程序员节
2501_938963961 小时前
基于音乐推荐数据的逻辑回归实验报告:曲风特征与用户收听意愿预测
算法·机器学习·逻辑回归
2501_938791221 小时前
逻辑回归正则化解释性实验报告:L2 正则对模型系数收缩的可视化分析
算法·机器学习·逻辑回归
2501_938790071 小时前
逻辑回归正则化参数选择实验报告:贝叶斯优化与网格搜索的效率对比
算法·机器学习·逻辑回归
2501_938780281 小时前
逻辑回归特征重要性排序实验报告:不同特征选择方法的排序一致性验证
算法·机器学习·逻辑回归
一碗绿豆汤2 小时前
机器学习第一阶段
人工智能·笔记·机器学习
水凌风里3 小时前
格拉姆角场(Gramian Angular Field, GAF)详解
人工智能·机器学习
麦麦大数据4 小时前
F043 vue+flask天气预测可视化系统大数据(浅色版)+机器学习+管理端+爬虫+超酷界面+顶级可视化水平
大数据·vue.js·机器学习·flask·空气质量·天气预测·气温预测
zzZ65654 小时前
U-net 系列算法总结
人工智能·深度学习·机器学习
deephub4 小时前
sklearn 特征选择实战:用 RFE 找到最优特征组合
人工智能·python·机器学习·sklearn·特征选择