机器学习异常值处理 逻辑汇总一

一 清除数据中恒定不变值

如果某个数据长时间不变,默认异常,清除掉该部分数据:

python 复制代码
# 使用 `shift` 和 `cumsum` 来创建一个分组键,每次值改变都会增加组号
g = (df['沉淀池3号进水流量'] != df['沉淀池3号进水流量'].shift()).cumsum()

# 使用 `transform` 来计算每个组的大小
counts = df.groupby(g)['沉淀池3号进水流量'].transform('count')
print('counts:', counts)
# 应用一个布尔掩码,将连续出现至少5次的值替换为 NaN
df.loc[counts >= 5, '沉淀池3号进水流量'] = np.nan

# 现在df中的'column_name'列已经将所有连续5个相同的值替换为了 NaN
df.info()

二 清除超出范围的值

指定数据范围外的值清洗:

python 复制代码
df['原水浊度'] = df['原水浊度'].apply(lambda x: x if 0.01 <= x <= 3 else None)

三 使用其中一列数据替换另一列数据

python 复制代码
all_data.loc[all_data['温度'].isnull(), '温度'] = all_data.loc[all_data['温度'].isnull(), '温度2']

四 指定条件替换某一部分数据 np.where

python 复制代码
df['沉后水浊度3'] = np.where(df.index > mid_time, 0.1, df['沉后水浊度3'])
相关推荐
产品人卫朋几秒前
AI硬件产品怎么做?Nova Sphere桌面设备
人工智能·产品经理·创业
探物 AI1 分钟前
【感知实战·数据增强篇】深度解析目标检测中的图片数据增强算法,多图演示效果
人工智能·算法·目标检测
QYR-分析2 分钟前
全地形轮足机器人行业发展分析:分类、格局与市场机遇
大数据·人工智能·机器人
Codigger官方2 分钟前
生态破局:从孤岛工具到协同奇点
开发语言·人工智能·程序人生
竹之却5 分钟前
【Agent-阿程】AI先锋杯·14天征文挑战第14期-第14天-OpenClaw 全配置目录结构与核心配置文件详解
人工智能·openclaw
Wenzar_7 分钟前
**发散创新:基于算子融合的深度学习推理优化实战**在现代AI推理场景中,模型性能瓶颈往往不是由单一算子决定的,而是多个连续算子之间数
java·人工智能·深度学习
360智汇云7 分钟前
AI标注平台TLP:AI预标+人工精修,重塑数据标注效率
人工智能·深度学习·机器学习
Deepoch8 分钟前
Deepoc 具身模型开发板在果蔬采摘机器人中的技术应用
人工智能·科技·机器人·具身模型·deepoc·采摘
青Cheng序员石头8 分钟前
AI Agent 真正危险的,不只是不靠谱的模型,还有被忽视的技能执行层
人工智能·安全·agent
AI程序员10 分钟前
把 Claude Managed Agents 讲明白:Agent、Environment、Session 分别在解决什么问题
人工智能