Python如何进行数据平滑处理_使用Pandas滚动中位数计算

滚动中位数比均值更抗异常值,因其仅依赖排序后中间位置的值,单个极值不影响结果;而滚动均值易受噪声污染,适用于监控预处理、IoT清洗等场景,但性能较慢且对NaN敏感。滚动中位数为什么比均值更抗异常值因为中位数不依赖所有值的大小,只看排序后中间位置;单个极大/极小值不会拉偏结果。而 rolling().mean() 会直接被污染,尤其在传感器数据、日志响应时间这类含突发噪声的场景里,平滑后仍残留毛刺。适用场景:监控指标突增检测前的预处理、IoT设备原始读数清洗、金融tick数据去噪注意 rolling().median() 默认不支持 min_periods 小于窗口长度(Pandas ≤ 2.0),若首几个点要补值,得手动用 fillna()性能上比均值慢约3--5倍(内部需排序),窗口大(如 window=1000)时明显卡顿,建议先采样或用 numpy.median 手动分块如何正确设置 rolling().median() 的 window 和 center 参数窗口大小不是拍脑袋定的:太小去不掉噪声,太大抹平真实变化。常见错误是把 window 设成固定秒数却忽略采样频率不均------比如用 window=5 处理每秒10条的数据,实际覆盖0.5秒,但若某段数据丢包,时间跨度就乱了。时间序列优先用时间偏移: df'value'.rolling('2S').median()(自动对齐时间索引)等间隔数值序列用整数窗口:df'value'.rolling(window=7).median()(对应7个采样点)center=True 让输出与原位置对齐(中点对中点),但首尾会多出 NaN;center=False(默认)则结果左对齐,首 window-1 个值为 NaN若需首尾填充,别用 min_periods=1(它只是降低计算门槛,不解决缺失),应接 .fillna(method='bfill').fillna(method='ffill')rolling().median() 在 NaN 处的行为和修复方式默认遇到 NaN 就中断计算:哪怕窗口内只有一个 NaN,整个窗口结果就是 NaN。这和 mean() 的 skipna=True 行为不同------median() 没有跳过选项。检查原始数据:先跑 df'value'.isna().sum(),确认是否真有缺失而非全零伪装预填充再滚动:用插值(df'value'.interpolate())或前向填充(df'value'.ffill()),别直接删行(会破坏时间连续性)极端情况可改用 scipy.signal.medfilt,它默认忽略边界并支持奇数窗口,但不认 Pandas 时间索引,需转 numpy.ndarray替代方案:当 rolling().median() 不够用时该换什么滚动中位数本质是局部排序,无法处理趋势漂移或周期性干扰。比如温度数据白天缓慢上升+夜间骤降,单纯中位数会滞后且压扁峰谷。 Tellers AI Tellers是一款自动视频编辑工具,可以将文本、文章或故事转换为视频。

相关推荐
用户03321266636721 分钟前
使用 Python 从零创建 Word 文档
python
Csvn5 小时前
Python 两大经典坑点 —— 可变默认参数 & 闭包延迟绑定
后端·python
曲幽6 小时前
别再用网页翻译看源码了!你的私人翻译神器LibreTranslate,部署避坑指南来了
python·docker·web·pot·translate·libretranslate·arogstranslate
用户556918817538 小时前
#从脚本到独立程序:Python + Playwright 批量抓取的完整踩坑记录
python·自动化运维
倔强的石头_9 小时前
KingbaseES 新版MySQL 兼容版体验:旧版迁移 + 功能实测
数据库
兵慌码乱1 天前
基于 MediaPipe 与 PySide2 的手势交互音乐控制系统实现:轻量化视觉交互全流程解析
python·opencv·计算机视觉·人机交互·手势识别·mediapipe·pyside2
luckdewei1 天前
FastAPI 资产管理系统实战:复杂 ORM 关联、Alembic 迁移与 N+1 查询优化
python
aqi001 天前
15天学会AI应用开发(八)使用向量数据库实现RAG功能
人工智能·python·大模型·ai编程·ai应用
Csvn1 天前
`functools.lru_cache` —— 一行代码搞定缓存加速
后端·python