Femnist数据集下载与划分

femnist数据集是个手写数字字母识别的数据集,官方来源是Leaf框架,这个框架里面有很多专门给联邦学习用的noniid数据集

官方链接和GitHub链接如下:

LEAF

https://github.com/TalwalkarLab/leaf/tree/master

注:leaf上的环境会用到tensorflow,个人不太习惯这个框架,pytorch版本的可以搜索FedLab,或者只想划分数据集,不需要跑leaf的示例实验可以不用安装tensorflow

把上述GitHub链接的东西git下来,可以看到data里面的femnist数据集,环境我用的3.11,只需要划分数据集的话版本应该没有特殊需求,尽量不要执行requirements,tensorflow很多包会冲突

这里面preprocess.sh是最终执行的脚本,readme里面有附带的参数说明

preprocess目录下是一些处理脚本

其中比较重要的是get_data.sh,这里主要是下载数据集的命令

wget的两个zip文件就是原始数据集,我运行的时候没法裸连下载,所以我这里手动下载,并且放到femnist/data/raw_data路径下再解压,这样就不用执行这个脚本了

byclass是完整的数据集,有80多万张图片,bywrite会少一些

解压之后就可以去femnist路径下运行preprocess.sh脚本了,可以根据自己需求配置参数

划分完后是一些json文件,会在femnist/data路径下的train和test目录里面,每个json文件里面都会有很多user,每个user下有x和y列表,x列表是图片,y列表是图片对应的标签,至此就算是划分好了

相关推荐
HUN金克斯3 小时前
HNU湖南大学机器学习期中考试原题
人工智能·机器学习
CAE虚拟与现实3 小时前
DOE实验设计、机器学习(代理模型)和目标优化之间的关系
人工智能·机器学习·代理模型·多学科优化
wayz113 小时前
Day 15:KMeans聚类与股票风格分类
机器学习·分类·kmeans·聚类
Resistance丶未来3 小时前
DeepSeek-V4 新手快速上手指南
数据结构·python·gpt·算法·机器学习·claude·claude 4.6
落羽的落羽4 小时前
【Linux系统】总结线程:死锁问题、实现带有日志模块的线程池类
linux·运维·服务器·c++·人工智能·机器学习
lwf00616412 小时前
导数学习日记
学习·算法·机器学习
code_li18 小时前
自动驾驶的调度开源软件
人工智能·机器学习·自动驾驶
wayz1119 小时前
Day 13 编程实战:朴素贝叶斯与极端涨跌预警
人工智能·算法·机器学习
我是发哥哈20 小时前
主流AI视频生成方案商用化能力横向评测
大数据·人工智能·学习·机器学习·chatgpt·音视频
攻防_SRC21 小时前
面向分组密码差分故障分析的属性推导与验证平台
人工智能·算法·机器学习