DataFrame中按某字段分类并且取该分类随机数量的数据

最近有个需求,把某个df中的数据,按照特定字段分类,并且每个分类只取随机数量数据,这个随机数量需要有范围限制。写出来记录下。

python 复制代码
def randomCutData(self, df, startNum):
     grouped = df.groupby('classify_label')
     df_sampled = pd.DataFrame()
     for _, group in grouped:
         num_samples = len(group)
         num_random_samples = random.randint(min(startNum, num_samples),num_samples)
         sampled_group = group.sample(n=num_random_samples, random_state=42)
         df_sampled = pd.concat([df_sampled, sampled_group])
     return df_sampled.copy()

self.randomCutData(df, 50).copy().reset_index(drop=True).to_csv('xxxxx.csv', index=False)

这里面的startNum是起始数量,如果该分类都没达到起始数量的话,就直接取该类的全部数据。

相关推荐
li99yo2 小时前
3DGS的复现
图像处理·pytorch·经验分享·python·3d·conda·pip
Dontla6 小时前
用pip install -e .开发Python包时,Python项目目录结构(项目结构)(可编辑安装editable install)
python·pip
Thomas.Sir6 小时前
第三章:Python3 之 字符串
开发语言·python·字符串·string
威联通网络存储7 小时前
告别掉帧与素材损毁:威联通 QuTS hero 如何重塑影视后期协同工作流
前端·网络·人工智能·python
Dxy12393102168 小时前
Python 根据列表中某字段排序:从基础到进阶
开发语言·windows·python
splage8 小时前
Java进阶——IO 流
java·开发语言·python
cliffordl8 小时前
设计模式(python)
python·设计模式
always_TT8 小时前
从Python_Java转学C语言需要注意什么?
java·c语言·python
2301_793804698 小时前
定时任务专家:Python Schedule库使用指南
jvm·数据库·python