机器学习异常值处理 逻辑汇总一

一 清除数据中恒定不变值

如果某个数据长时间不变,默认异常,清除掉该部分数据:

python 复制代码
# 使用 `shift` 和 `cumsum` 来创建一个分组键,每次值改变都会增加组号
g = (df['沉淀池3号进水流量'] != df['沉淀池3号进水流量'].shift()).cumsum()

# 使用 `transform` 来计算每个组的大小
counts = df.groupby(g)['沉淀池3号进水流量'].transform('count')
print('counts:', counts)
# 应用一个布尔掩码,将连续出现至少5次的值替换为 NaN
df.loc[counts >= 5, '沉淀池3号进水流量'] = np.nan

# 现在df中的'column_name'列已经将所有连续5个相同的值替换为了 NaN
df.info()

二 清除超出范围的值

指定数据范围外的值清洗:

python 复制代码
df['原水浊度'] = df['原水浊度'].apply(lambda x: x if 0.01 <= x <= 3 else None)

三 使用其中一列数据替换另一列数据

python 复制代码
all_data.loc[all_data['温度'].isnull(), '温度'] = all_data.loc[all_data['温度'].isnull(), '温度2']

四 指定条件替换某一部分数据 np.where

python 复制代码
df['沉后水浊度3'] = np.where(df.index > mid_time, 0.1, df['沉后水浊度3'])
相关推荐
2301_809049423 分钟前
WSL Ubuntu24修改g++和cuda toolkit version
人工智能
sunneo6 分钟前
专栏A-AI原生产品设计-01-AI辅助 vs AI原生——产品形态的代际差异
人工智能·语言模型·产品运营·产品经理·ai编程·ai-native
ting94520006 分钟前
Wan2.1-1.3B 深度技术指南:架构、能力、部署与实战全解析
人工智能·架构
热心网友俣先生6 分钟前
2026华中杯A题超详细解题思路+第一篇论文分享
人工智能·算法·机器学习
介一安全10 分钟前
JADX与AI结合的实操指南:从工具配置到APK分析
人工智能·测试工具·安全性测试·jadx
2501_9400417413 分钟前
投喂:AI生成各类游戏提示词
人工智能·游戏·prompt
做cv的小昊15 分钟前
【TJU】研究生应用统计学课程笔记(4)——第二章 参数估计(2.1 矩估计和极大似然估计、2.2估计量的优良性原则)
人工智能·笔记·考研·数学建模·数据分析·excel·概率论
ApachePulsar19 分钟前
演讲回顾|Apache Pulsar: 现代数据架构的消息底座
人工智能·架构
Agent产品评测局20 分钟前
混合云架构适配:企业级智能体灵活部署完整方案与最佳实践 | 2026企业自动化选型硬核指南
运维·人工智能·ai·chatgpt·架构·自动化
一个小浪吴啊22 分钟前
重构 AI 编程流:基于 Hermes 记忆中枢与 OpenCode 执行终端的 Harness 工程化实践
java·人工智能·opencode·harness·hermes