机器学习异常值处理 逻辑汇总一

一 清除数据中恒定不变值

如果某个数据长时间不变,默认异常,清除掉该部分数据:

python 复制代码
# 使用 `shift` 和 `cumsum` 来创建一个分组键,每次值改变都会增加组号
g = (df['沉淀池3号进水流量'] != df['沉淀池3号进水流量'].shift()).cumsum()

# 使用 `transform` 来计算每个组的大小
counts = df.groupby(g)['沉淀池3号进水流量'].transform('count')
print('counts:', counts)
# 应用一个布尔掩码,将连续出现至少5次的值替换为 NaN
df.loc[counts >= 5, '沉淀池3号进水流量'] = np.nan

# 现在df中的'column_name'列已经将所有连续5个相同的值替换为了 NaN
df.info()

二 清除超出范围的值

指定数据范围外的值清洗:

python 复制代码
df['原水浊度'] = df['原水浊度'].apply(lambda x: x if 0.01 <= x <= 3 else None)

三 使用其中一列数据替换另一列数据

python 复制代码
all_data.loc[all_data['温度'].isnull(), '温度'] = all_data.loc[all_data['温度'].isnull(), '温度2']

四 指定条件替换某一部分数据 np.where

python 复制代码
df['沉后水浊度3'] = np.where(df.index > mid_time, 0.1, df['沉后水浊度3'])
相关推荐
北京耐用通信6 小时前
耐达讯自动化CC-Link IE转DeviceNet网关:破解三菱与欧姆龙PLC协同壁垒的工业实践
人工智能·科技·物联网·网络协议·自动化
zhangshuang-peta7 小时前
安全地将人工智能助手与企业系统和数据集成
人工智能·安全·chatgpt·ai agent·mcp·peta
AI专业测评7 小时前
2026年全景基准测试:7款主流AI写小说工具底层架构与工程化实践对比
人工智能·架构
sbjdhjd7 小时前
一些感想 | AI:一场没有陨石的末日
人工智能
人工智能AI技术7 小时前
AWE2026现场直击:脑机接口、意念控无人机,中国家电正进入“物理AI“时代
人工智能
愈努力俞幸运7 小时前
llm+agent,使用与 OpenAI 兼容的 API 格式
人工智能
IT_陈寒7 小时前
Vue组件复用率提升300%?这5个高阶技巧让你的代码焕然一新!
前端·人工智能·后端
jkyy20147 小时前
破局家电同质化:智能冰箱+主动健康,解锁家庭健康新赛道
大数据·人工智能·健康医疗
王知无(import_bigdata)7 小时前
一个极简的AI Agentic Engineering技术栈学习路线
人工智能·学习
ToB营销学堂7 小时前
B2B AI内容实战指南:AI提效 x GEO获客 x 增长闭环
人工智能·geo·b2b营销获客