Femnist数据集下载与划分

femnist数据集是个手写数字字母识别的数据集,官方来源是Leaf框架,这个框架里面有很多专门给联邦学习用的noniid数据集

官方链接和GitHub链接如下:

LEAF

https://github.com/TalwalkarLab/leaf/tree/master

注:leaf上的环境会用到tensorflow,个人不太习惯这个框架,pytorch版本的可以搜索FedLab,或者只想划分数据集,不需要跑leaf的示例实验可以不用安装tensorflow

把上述GitHub链接的东西git下来,可以看到data里面的femnist数据集,环境我用的3.11,只需要划分数据集的话版本应该没有特殊需求,尽量不要执行requirements,tensorflow很多包会冲突

这里面preprocess.sh是最终执行的脚本,readme里面有附带的参数说明

preprocess目录下是一些处理脚本

其中比较重要的是get_data.sh,这里主要是下载数据集的命令

wget的两个zip文件就是原始数据集,我运行的时候没法裸连下载,所以我这里手动下载,并且放到femnist/data/raw_data路径下再解压,这样就不用执行这个脚本了

byclass是完整的数据集,有80多万张图片,bywrite会少一些

解压之后就可以去femnist路径下运行preprocess.sh脚本了,可以根据自己需求配置参数

划分完后是一些json文件,会在femnist/data路径下的train和test目录里面,每个json文件里面都会有很多user,每个user下有x和y列表,x列表是图片,y列表是图片对应的标签,至此就算是划分好了

相关推荐
老欧学视觉10 小时前
0011机器学习特征工程
人工智能·机器学习
c骑着乌龟追兔子10 小时前
Day 27 常见的降维算法
人工智能·算法·机器学习
九千七52610 小时前
sklearn学习(5)线性回归和逻辑回归
人工智能·学习·机器学习·逻辑回归·线性回归·sklearn
Python极客之家11 小时前
基于深度学习的游戏评论情感分析系统
人工智能·深度学习·机器学习·毕业设计·课程设计
DAdaguai211 小时前
2026-2032年机器学习操作 (MLOps)行业增长37.4%趋势分析报告
机器学习·机器人
星云数灵11 小时前
机器学习入门实战:使用Scikit-learn完成鸢尾花分类
人工智能·python·机器学习·ai·数据分析·pandas·python数据分析
明月(Alioo)11 小时前
机器学习入门,微积分之导数概念
人工智能·机器学习
Salt_072812 小时前
DAY25 奇异值SVD分解
python·算法·机器学习
大千AI助手12 小时前
贝叶斯错误率:机器学习性能的理论极限
人工智能·机器学习·贝叶斯·大千ai助手·贝叶斯误差率·ber·模型性能
泰迪智能科技0113 小时前
分享机器学习工程师证书的报考条件解读
人工智能·机器学习