DataFrame中按某字段分类并且取该分类随机数量的数据

最近有个需求,把某个df中的数据,按照特定字段分类,并且每个分类只取随机数量数据,这个随机数量需要有范围限制。写出来记录下。

python 复制代码
def randomCutData(self, df, startNum):
     grouped = df.groupby('classify_label')
     df_sampled = pd.DataFrame()
     for _, group in grouped:
         num_samples = len(group)
         num_random_samples = random.randint(min(startNum, num_samples),num_samples)
         sampled_group = group.sample(n=num_random_samples, random_state=42)
         df_sampled = pd.concat([df_sampled, sampled_group])
     return df_sampled.copy()

self.randomCutData(df, 50).copy().reset_index(drop=True).to_csv('xxxxx.csv', index=False)

这里面的startNum是起始数量,如果该分类都没达到起始数量的话,就直接取该类的全部数据。

相关推荐
共享家952721 小时前
搭建 AI 聊天机器人:”我的人生我做主“
前端·javascript·css·python·pycharm·html·状态模式
Hgfdsaqwr1 天前
Python在2024年的主要趋势与发展方向
jvm·数据库·python
一晌小贪欢1 天前
Python 测试利器:使用 pytest 高效编写和管理单元测试
python·单元测试·pytest·python3·python测试
小文数模1 天前
2026年美赛数学建模C题完整参考论文(含模型和代码)
python·数学建模·matlab
Halo_tjn1 天前
基于封装的专项 知识点
java·前端·python·算法
龙腾AI白云1 天前
基于Transformer的人工智能模型搭建与fine-tuning
人工智能·数据挖掘
Hgfdsaqwr1 天前
掌握Python魔法方法(Magic Methods)
jvm·数据库·python
weixin_395448911 天前
export_onnx.py_0130
pytorch·python·深度学习
s1hiyu1 天前
使用Scrapy框架构建分布式爬虫
jvm·数据库·python
2301_763472461 天前
使用Seaborn绘制统计图形:更美更简单
jvm·数据库·python