DataFrame中按某字段分类并且取该分类随机数量的数据

最近有个需求,把某个df中的数据,按照特定字段分类,并且每个分类只取随机数量数据,这个随机数量需要有范围限制。写出来记录下。

python 复制代码
def randomCutData(self, df, startNum):
     grouped = df.groupby('classify_label')
     df_sampled = pd.DataFrame()
     for _, group in grouped:
         num_samples = len(group)
         num_random_samples = random.randint(min(startNum, num_samples),num_samples)
         sampled_group = group.sample(n=num_random_samples, random_state=42)
         df_sampled = pd.concat([df_sampled, sampled_group])
     return df_sampled.copy()

self.randomCutData(df, 50).copy().reset_index(drop=True).to_csv('xxxxx.csv', index=False)

这里面的startNum是起始数量,如果该分类都没达到起始数量的话,就直接取该类的全部数据。

相关推荐
hyhrosewind26 分钟前
Python函数基础:说明文档(多行注释),函数嵌套调用,变量作用域(局部,全局,global关键字),综合案例
python·变量作用域·函数说明文档(多行注释)·函数嵌套调用·局部变量和全局变量·函数内修改全局变量·global关键字
一点.点1 小时前
李沐动手深度学习(pycharm中运行笔记)——04.数据预处理
pytorch·笔记·python·深度学习·pycharm·动手深度学习
一点.点1 小时前
李沐动手深度学习(pycharm中运行笔记)——07.自动求导
pytorch·笔记·python·深度学习·pycharm·动手深度学习
大霸王龙2 小时前
Python对比两张CAD图并标记差异的解决方案
python·opencv·计算机视觉
萧鼎3 小时前
PDFMathTranslate:让数学公式在PDF翻译中不再痛苦
python·pdf
@_猿来如此3 小时前
Django 实现电影推荐系统:从搭建到功能完善(附源码)
数据库·后端·python·django
过期的秋刀鱼!3 小时前
数据分析之技术干货业务价值 powerquery 分组排序后取TOP
数据挖掘·数据分析·excel·数据清洗·分组排序·powerquery·电商货品分析
Python×CATIA工业智造3 小时前
爬虫技术入门:基本原理、数据抓取与动态页面处理
爬虫·python·pycharm
fmdpenny3 小时前
用python写一个相机选型的简易程序
开发语言·python·数码相机
敲敲敲-敲代码4 小时前
【PyCharm- Python- ArcGIS】:安装一个和 ArcGIS 不冲突的独立 Python让PyCharm 使用 (解决全过程记录)
python·arcgis·pycharm