Python爬虫实战：数据质量治理实战 - 构建企业级规则引擎与异常检测系统！

㊗️本期内容已收录至专栏《Python爬虫实战》，持续完善知识体系与项目实战，建议先订阅收藏，后续查阅更方便～

㊙️本期爬虫难度指数：⭐⭐⭐

🉐福利：一次订阅后，专栏内的所有文章可永久免费看，持续更新中，保底1000+(篇)硬核实战内容。

全文目录：

- [🌟 开篇语](#🌟 开篇语)
- [📊 摘要（Abstract）](#📊 摘要（Abstract）)
- [🎯 背景与需求（Why）](#🎯 背景与需求（Why）)
- - 为什么需要数据质量规则引擎？
  - 数据质量问题的典型表现
  - 目标架构与规则清单
- [⚖️ 合规与注意事项（必写）](#⚖️ 合规与注意事项（必写）)
- - 数据质量治理的伦理原则
  - 技术规范
- [🛠️ 技术选型与整体流程（What/How）](#🛠️ 技术选型与整体流程（What/How）)
- - [为什么选择Python + Pandas？](#为什么选择Python + Pandas？)
  - 整体流程设计
- [📦 环境准备与依赖安装（可复现）](#📦 环境准备与依赖安装（可复现）)
- - Python版本要求
  - 依赖安装
  - 项目结构
- [🏗️ 核心实现：规则基类与引擎框架](#🏗️ 核心实现：规则基类与引擎框架)
- - 规则基类设计
  - 规则引擎核心
- [📝 核心实现：具体规则类（完整性、准确性、一致性）](#📝 核心实现：具体规则类（完整性、准确性、一致性）)
- - [1. 完整性规则：缺失率检测](#1. 完整性规则：缺失率检测)
  - [2. 准确性规则：范围检测与突变检测](#2. 准确性规则：范围检测与突变检测)
  - [3. 一致性规则：离群点检测（Z-Score/IQR）](#3. 一致性规则：离群点检测（Z-Score/IQR）)
- [📊 完整示例：电商商品数据质量检测](#📊 完整示例：电商商品数据质量检测)
- [🎨 进阶：HTML质量报告生成](#🎨 进阶：HTML质量报告生成)
- [📚 总结与延伸阅读](#📚 总结与延伸阅读)
- - 你已经掌握了什么？
  - 与商业产品对比
  - 推荐阅读资料
- [🌟 文末](#🌟 文末)
- - [✅ 专栏持续更新中｜建议收藏 + 订阅](#✅ 专栏持续更新中｜建议收藏 + 订阅)
  - [✅ 互动征集](#✅ 互动征集)
  - [✅ 免责声明](#✅ 免责声明)

🌟 开篇语

哈喽，各位小伙伴们你们好呀～我是【喵手】。

运营社区： C站 / 掘金 / 腾讯云 / 阿里云 / 华为云 / 51CTO

欢迎大家常来逛逛，一起学习，一起进步～🌟

我长期专注 Python 爬虫工程化实战 ，主理专栏《Python爬虫实战》：从采集策略 到反爬对抗 ，从数据清洗 到分布式调度 ，持续输出可复用的方法论与可落地案例。内容主打一个"能跑、能用、能扩展 "，让数据价值真正做到------抓得到、洗得净、用得上。

📌 专栏食用指南（建议收藏）

✅ 入门基础：环境搭建 / 请求与解析 / 数据落库
✅ 进阶提升：登录鉴权 / 动态渲染 / 反爬对抗
✅ 工程实战：异步并发 / 分布式调度 / 监控与容错
✅ 项目落地：数据治理 / 可视化分析 / 场景化应用

📣 专栏推广时间 ：如果你想系统学爬虫，而不是碎片化东拼西凑，欢迎订阅专栏👉《Python爬虫实战》👈，一次订阅后，专栏内的所有文章可永久免费阅读，持续更新中。

💕订阅后更新会优先推送，按目录学习更高效💯～

📊 摘要（Abstract）

本文将带你从零构建一个生产级数据质量规则引擎（Data Quality Rule Engine），实现价格突变检测、评分越界校验、缺失率阈值告警等核心功能。最终产出一个支持规则动态配置、异常自动标记、质量报告生成的完整数据治理框架。

读完你将获得：

掌握数据质量六大维度（完整性、准确性、一致性、时效性、唯一性、合规性）的工程化实现
学会使用策略模式+责任链模式设计灵活的规则引擎
理解统计学方法（Z-Score、IQR）在异常检测中的应用
能够构建支持规则可视化配置、异常追溯的企业级质量平台

🎯 背景与需求（Why）

为什么需要数据质量规则引擎？

在数据驱动的业务场景中，**脏数据（Dirty Data）**会导致：

决策失误：基于错误数据的分析结果误导业务
系统故障：下游应用因异常数据崩溃（如价格为负数）
合规风险：数据不符合行业标准（如GDPR、SOX法案）
资源浪费：人工排查数据问题耗时耗力

数据质量问题的典型表现

质量维度	问题示例	业务影响	检测方法
完整性	缺失字段（价格为NULL）	无法展示商品	缺失率统计
准确性	评分为15分（超出0-10范围）	排序算法失效	范围校验
一致性	同一商品多次采集价格差异>50%	用户投诉	时间序列对比
时效性	数据采集时间>24小时	信息过期	时间戳检查
唯一性	重复的商品ID	统计指标失真	去重检测
合规性	手机号未脱敏	法律风险	正则匹配

目标架构与规则清单

规则引擎架构：

json 复制代码

[数据输入] → [规则引擎] → [异常标记] → [质量报告]
     ↓           ↓            ↓           ↓
  DataFrame   规则链执行   红色/黄色    Dashboard
              (并行)      (严重程度)   (可视化)

核心规则类型（本文实现）：

缺失性规则：字段缺失率阈值（如>10%告警）
范围规则：数值越界检测（评分必须0-10）
突变规则：相邻数据点变化率检测（价格波动>50%）
唯一性规则：主键重复检测
格式规则：正则表达式校验（URL、邮箱等）
统计规则：基于Z-Score/IQR的离群点检测
业务规则：自定义逻辑（如"促销价必须<原价"）

⚖️ 合规与注意事项（必写）

数据质量治理的伦理原则

透明性：质量检测逻辑应可解释、可审计
公平性：规则不应带有歧视性（如基于地域的阈值差异）
隐私保护：质量报告不泄露敏感信息
可撤销性：误判数据应可人工复核

技术规范

规则版本管理：所有规则变更需记录（审计日志）
性能要求：百万级数据检测<5分钟
误报控制：False Positive Rate < 5%
告警分级：严重（红色）、警告（黄色）、提示（蓝色）

🛠️ 技术选型与整体流程（What/How）

为什么选择Python + Pandas？

技术栈	优势	劣势	适用场景
Pandas	向量化计算快、API丰富	内存限制	单机百万级
Spark	分布式、PB级	部署复杂	大数据场景
Deequ	AWS原生、Scala	学习曲线陡	EMR环境
Great Expectations	规则丰富、报告美观	重量级	企业级项目
自研引擎	轻量、可定制	需维护	本文方案

选择自研的理由：

轻量级：无外部依赖，易于集成
可扩展：策略模式支持自定义规则
可理解：代码透明，便于定制

整体流程设计

json 复制代码

[数据加载] → [规则注册] → [并行执行] → [结果聚合] → [报告生成]
     ↓           ↓            ↓            ↓           ↓
  CSV/DB    规则配置YAML   多线程检测   异常DataFrame   HTML/JSON
            (动态加载)    (责任链)     (标记严重程度)  (可视化)

关键设计模式：

策略模式：每个规则是一个Strategy
责任链模式：规则按链式执行，任一规则失败则标记
工厂模式：根据配置文件动态创建规则实例
观察者模式：规则执行结果通知给多个订阅者（Logger、Dashboard等）

📦 环境准备与依赖安装（可复现）

Python版本要求

推荐：Python 3.9+
最低：Python 3.8

依赖安装

bash 复制代码

# 核心依赖
pip install pandas==2.1.4
pip install numpy==1.26.2
pip install pydantic==2.5.3  # 规则配置校验
pip install pyyaml==6.0.1    # 规则配置文件

# 可视化（可选）
pip install matplotlib==3.8.2
pip install seaborn==0.13.0
pip install jinja2==3.1.2    # HTML报告生成

# 性能优化（可选）
pip install numba==0.58.1    # JIT编译加速

项目结构

json 复制代码

data-quality-engine/
├── src/
│   ├── __init__.py
│   ├── core/
│   │   ├── engine.py          # 规则引擎核心
│   │   ├── rule_base.py       # 规则基类
│   │   └── context.py         # 执行上下文
│   ├── rules/
│   │   ├── __init__.py
│   │   ├── completeness.py    # 完整性规则
│   │   ├── accuracy.py        # 准确性规则
│   │   ├── consistency.py     # 一致性规则
│   │   └── custom.py          # 自定义规则
│   ├── detectors/
│   │   ├── outlier.py         # 离群点检测
│   │   └── anomaly.py         # 异常检测
│   ├── reporters/
│   │   ├── html_reporter.py   # HTML报告生成
│   │   └── json_reporter.py   # JSON报告
│   └── utils/
│       ├── metrics.py         # 质量指标计算
│       └── visualizer.py      # 可视化工具
├── config/
│   ├── rules.yaml             # 规则配置文件
│   └── thresholds.yaml        # 阈值配置
├── data/
│   ├── input/                 # 待检测数据
│   └── output/                # 质量报告
└── tests/
    └── test_rules.py

🏗️ 核心实现：规则基类与引擎框架

规则基类设计

python 复制代码

# src/core/rule_base.py
from abc import ABC, abstractmethod
from typing import Any, Dict, List, Optional
from dataclasses import dataclass, field
from enum import Enum
import pandas as pd
from datetime import datetime

class RuleSeverity(str, Enum):
    """规则严重程度"""
    CRITICAL = "critical"  # 红色：严重问题，阻断流程
    WARNING = "warning"    # 黄色：警告，需人工审核
    INFO = "info"          # 蓝色：提示，建议优化

@dataclass
class RuleViolation:
    """规则违反记录"""
    rule_name: str                    # 规则名称
    severity: RuleSeverity           # 严重程度
    message: str                      # 违规描述
    affected_rows: List[int] = field(default_factory=list)  # 受影响行号
    affected_columns: List[str] = field(default_factory=list)  # 受影响列
    metrics: Dict[str, Any] = field(default_factory=dict)  # 度量指标
    timestamp: datetime = field(default_factory=datetime.now)
    
    def to_dict(self) -> Dict:
        """转为字典（用于JSON序列化）"""
        return {
            'rule_name': self.rule_name,
            'severity': self.severity.value,
            'message': self.message,
            'affected_count': len(self.affected_rows),
            'affected_rows_sample': self.affected_rows[:10],  # 只展示前10个
            'affected_columns': self.affected_columns,
            'metrics': self.metrics,
            'timestamp': self.timestamp.isoformat()
        }

@dataclass
class RuleResult:
    """规则执行结果"""
    rule_name: str
    passed: bool                      # 是否通过
    violations: List[RuleViolation] = field(default_factory=list)
    execution_time: float = 0.0       # 执行耗时（秒）
    
    @property
    def violation_count(self) -> int:
        return len(self.violations)
    
    @property
    def critical_count(self) -> int:
        return sum(1 for v in self.violations if v.severity == RuleSeverity.CRITICAL)

class DataQualityRule(ABC):
    """数据质量规则抽象基类
    
    所有具体规则必须继承此类并实现validate()方法
    """
    
    def __init__(
        self,
        name: str,
        description: str,
        severity: RuleSeverity = RuleSeverity.WARNING,
        enabled: bool = True
    ):
        """
        参数:
            name: 规则唯一标识
            description: 规则说明
            severity: 默认严重程度
            enabled: 是否启用
        """
        self.name = name
        self.description = description
        self.severity = severity
        self.enabled = enabled
    
    @abstractmethod
    def validate(self, df: pd.DataFrame) -> RuleResult:
        """执行规则校验
        
        参数:
            df: 待检测的DataFrame
        
        返回:
            RuleResult: 包含违规记录的结果对象
        """
        pass
    
    def _create_violation(
        self,
        message: str,
        affected_rows: Optional[List[int]] = None,
        affected_columns: Optional[List[str]] = None,
        metrics: Optional[Dict] = None
    ) -> RuleViolation:
        """创建违规记录（便捷方法）"""
        return RuleViolation(
            rule_name=self.name,
            severity=self.severity,
            message=message,
            affected_rows=affected_rows or [],
            affected_columns=affected_columns or [],
            metrics=metrics or {}
        )
    
    def __repr__(self):
        status = "✅ 启用" if self.enabled else "❌ 禁用"
        return f"<Rule: {self.name} | {self.severity.value} | {status}>"

设计亮点解析：

职责分离：
- RuleViolation：单个违规记录
- RuleResult：规则整体执行结果
- DataQualityRule：规则逻辑抽象
可扩展性：
- 使用ABC（抽象基类）强制子类实现validate()
- 通过继承轻松添加新规则
可追溯性：
- affected_rows记录具体问题行号
- metrics存储详细度量（如缺失率、平均值等）

规则引擎核心

python 复制代码

# src/core/engine.py
from typing import List, Dict, Optional
import pandas as pd
import time
import logging
from concurrent.futures import ThreadPoolExecutor, as_completed

logger = logging.getLogger(__name__)

class DataQualityEngine:
    """数据质量规则引擎"""
    
    def __init__(self, max_workers: int = 4):
        """
        参数:
            max_workers: 并行执行规则的最大线程数
        """
        self.rules: List[DataQualityRule] = []
        self.max_workers = max_workers
        
        # 执行历史
        self.execution_history: List[Dict] = []
    
    def register_rule(self, rule: DataQualityRule):
        """注册规则到引擎"""
        if not rule.enabled:
            logger.info(f"规则 {rule.name} 已禁用，跳过注册")
            return
        
        # 检查重名
        if any(r.name == rule.name for r in self.rules):
            logger.warning(f"规则 {rule.name} 已存在，将覆盖")
            self.rules = [r for r in self.rules if r.name != rule.name]
        
        self.rules.append(rule)
        logger.info(f"✅ 注册规则: {rule.name} ({rule.severity.value})")
    
    def register_rules(self, rules: List[DataQualityRule]):
        """批量注册规则"""
        for rule in rules:
            self.register_rule(rule)
    
    def validate(
        self,
        df: pd.DataFrame,
        parallel: bool = True,
        stop_on_critical: bool = False
    ) -> Dict[str, RuleResult]:
        """执行所有规则校验
        
        参数:
            df: 待检测数据
            parallel: 是否并行执行规则
            stop_on_critical: 遇到严重问题时是否停止
        
        返回:
            {rule_name: RuleResult} 字典
        """
        if df.empty:
            logger.warning("输入DataFrame为空，跳过检测")
            return {}
        
        logger.info(f"开始数据质量检测：{len(df)} 行 × {len(df.columns)} 列")
        logger.info(f"已注册规则数: {len(self.rules)}")
        
        start_time = time.time()
        results: Dict[str, RuleResult] = {}
        
        if parallel and len(self.rules) > 1:
            # 并行执行
            results = self._validate_parallel(df, stop_on_critical)
        else:
            # 串行执行
            results = self._validate_sequential(df, stop_on_critical)
        
        total_time = time.time() - start_time
        
        # 记录执行历史
        self._log_execution(df, results, total_time)
        
        # 打印摘要
        self._print_summary(results, total_time)
        
        return results
    
    def _validate_sequential(
        self,
        df: pd.DataFrame,
        stop_on_critical: bool
    ) -> Dict[str, RuleResult]:
        """串行执行规则"""
        results = {}
        
        for rule in self.rules:
            logger.info(f"执行规则: {rule.name}")
            
            rule_start = time.time()
            try:
                result = rule.validate(df)
                result.execution_time = time.time() - rule_start
                results[rule.name] = result
                
                # 检查是否需要停止
                if stop_on_critical and result.critical_count > 0:
                    logger.error(f"规则 {rule.name} 发现严重问题，停止检测")
                    break
            
            except Exception as e:
                logger.error(f"规则 {rule.name} 执行失败: {e}", exc_info=True)
                results[rule.name] = RuleResult(
                    rule_name=rule.name,
                    passed=False,
                    violations=[RuleViolation(
                        rule_name=rule.name,
                        severity=RuleSeverity.CRITICAL,
                        message=f"规则执行异常: {str(e)}"
                    )]
                )
        
        return results
    
    def _validate_parallel(
        self,
        df: pd.DataFrame,
        stop_on_critical: bool
    ) -> Dict[str, RuleResult]:
        """并行执行规则（线程池）"""
        results = {}
        
        with ThreadPoolExecutor(max_workers=self.max_workers) as executor:
            # 提交所有任务
            future_to_rule = {
                executor.submit(self._execute_rule, rule, df): rule
                for rule in self.rules
            }
            
            # 收集结果
            for future in as_completed(future_to_rule):
                rule = future_to_rule[future]
                
                try:
                    result = future.result()
                    results[rule.name] = result
                    
                    # 并行模式下stop_on_critical需要取消剩余任务
                    if stop_on_critical and result.critical_count > 0:
                        logger.error(f"规则 {rule.name} 发现严重问题")
                        # 取消未完成的任务
                        for f in future_to_rule:
                            f.cancel()
                        break
                
                except Exception as e:
                    logger.error(f"规则 {rule.name} 执行失败: {e}", exc_info=True)
        
        return results
    
    def _execute_rule(self, rule: DataQualityRule, df: pd.DataFrame) -> RuleResult:
        """执行单个规则（带计时）"""
        start = time.time()
        result = rule.validate(df)
        result.execution_time = time.time() - start
        return result
    
    def _log_execution(self, df: pd.DataFrame, results: Dict, total_time: float):
        """记录执行历史"""
        self.execution_history.append({
            'timestamp': datetime.now(),
            'row_count': len(df),
            'column_count': len(df.columns),
            'rules_executed': len(results),
            'total_violations': sum(r.violation_count for r in results.values()),
            'critical_count': sum(r.critical_count for r in results.values()),
            'total_time': total_time
        })
    
    def _print_summary(self, results: Dict[str, RuleResult], total_time: float):
        """打印检测摘要"""
        total_violations = sum(r.violation_count for r in results.values())
        critical_count = sum(r.critical_count for r in results.values())
        passed_count = sum(1 for r in results.values() if r.passed)
        
        print("\n" + "="*70)
        print("📊 数据质量检测报告")
        print("="*70)
        print(f"⏱️  总耗时: {total_time:.2f}秒")
        print(f"📋 执行规则数: {len(results)}")
        print(f"✅ 通过规则: {passed_count}/{len(results)}")
        print(f"⚠️  违规总数: {total_violations}")
        print(f"🚨 严重问题: {critical_count}")
        print("="*70)
        
        # 按严重程度分组展示
        if total_violations > 0:
            print("\n详细违规信息:")
            for rule_name, result in results.items():
                if not result.passed:
                    print(f"\n  [{result.violations[0].severity.value.upper()}] {rule_name}")
                    for v in result.violations[:3]:  # 只显示前3个
                        print(f"    - {v.message}")
                        if v.affected_rows:
                            print(f"      受影响行: {len(v.affected_rows)} 条")
        
        print("\n" + "="*70 + "\n")

引擎设计的关键技术点：

并行化：

python 复制代码

# 使用ThreadPoolExecutor并行执行规则
# 适用于I/O密集型任务（如数据库查询）
# CPU密集型可改用ProcessPoolExecutor

容错机制：
- 单个规则失败不影响其他规则
- 异常被捕获并记录到结果中
可观测性：
- execution_history记录每次检测的元信息
- 便于分析引擎性能和数据质量趋势

📝 核心实现：具体规则类（完整性、准确性、一致性）

1. 完整性规则：缺失率检测

python 复制代码

# src/rules/completeness.py
import pandas as pd
from typing import Dict, List, Optional
from src.core.rule_base import DataQualityRule, RuleResult, RuleSeverity

class MissingRateRule(DataQualityRule):
    """字段缺失率检测规则
    
    示例：
        rule = MissingRateRule(
            columns=['price', 'rating'],
            threshold=0.1,  # 10%
            severity=RuleSeverity.WARNING
        )
    """
    
    def __init__(
        self,
        columns: List[str],
        threshold: float = 0.1,
        severity: RuleSeverity = RuleSeverity.WARNING,
        **kwargs
    ):
        """
        参数:
            columns: 要检测的列名列表
            threshold: 缺失率阈值（0.1表示10%）
            severity: 严重程度
        """
        super().__init__(
            name=f"MissingRate_{'-'.join(columns)}",
            description=f"检测字段缺失率是否超过{threshold*100}%",
            severity=severity,
            **kwargs
        )
        self.columns = columns
        self.threshold = threshold
    
    def validate(self, df: pd.DataFrame) -> RuleResult:
        """执行缺失率检测"""
        violations = []
        
        for col in self.columns:
            # 检查列是否存在
            if col not in df.columns:
                violations.append(self._create_violation(
                    message=f"列 '{col}' 不存在于数据中",
                    severity=RuleSeverity.CRITICAL
                ))
                continue
            
            # 计算缺失率
            total_rows = len(df)
            missing_count = df[col].isnull().sum()
            missing_rate = missing_count / total_rows if total_rows > 0 else 0
            
            # 判断是否超过阈值
            if missing_rate > self.threshold:
                # 找出缺失的行号
                missing_rows = df[df[col].isnull()].index.tolist()
                
                violations.append(self._create_violation(
                    message=f"列 '{col}' 缺失率为 {missing_rate*100:.2f}%（阈值{self.threshold*100}%）",
                    affected_rows=missing_rows,
                    affected_columns=[col],
                    metrics={
                        'missing_count': int(missing_count),
                        'total_count': int(total_rows),
                        'missing_rate': float(missing_rate),
                        'threshold': self.threshold
                    }
                ))
        
        return RuleResult(
            rule_name=self.name,
            passed=len(violations) == 0,
            violations=violations
        )

class RequiredFieldsRule(DataQualityRule):
    """必填字段检测规则
    
    与MissingRateRule区别：此规则要求字段100%无缺失
    """
    
    def __init__(
        self,
        columns: List[str],
        severity: RuleSeverity = RuleSeverity.CRITICAL,
        **kwargs
    ):
        super().__init__(
            name=f"RequiredFields_{'-'.join(columns)}",
            description=f"检测必填字段是否有缺失",
            severity=severity,
            **kwargs
        )
        self.columns = columns
    
    def validate(self, df: pd.DataFrame) -> RuleResult:
        """检测必填字段"""
        violations = []
        
        for col in self.columns:
            if col not in df.columns:
                violations.append(self._create_violation(
                    message=f"必填列 '{col}' 不存在",
                    severity=RuleSeverity.CRITICAL
                ))
                continue
            
            # 查找空值
            null_rows = df[df[col].isnull()].index.tolist()
            
            if null_rows:
                violations.append(self._create_violation(
                    message=f"必填列 '{col}' 存在 {len(null_rows)} 个空值",
                    affected_rows=null_rows,
                    affected_columns=[col],
                    metrics={'null_count': len(null_rows)}
                ))
        
        return RuleResult(
            rule_name=self.name,
            passed=len(violations) == 0,
            violations=violations
        )

2. 准确性规则：范围检测与突变检测

python 复制代码

# src/rules/accuracy.py
import pandas as pd
import numpy as np
from typing import Dict, List, Optional, Union
from src.core.rule_base import DataQualityRule, RuleResult, RuleSeverity

class RangeRule(DataQualityRule):
    """数值范围检测规则
    
    示例：
        rule = RangeRule(
            column='rating',
            min_value=0.0,
            max_value=10.0,
            severity=RuleSeverity.CRITICAL
        )
    """
    
    def __init__(
        self,
        column: str,
        min_value: Optional[float] = None,
        max_value: Optional[float] = None,
        severity: RuleSeverity = RuleSeverity.WARNING,
        **kwargs
    ):
        """
        参数:
            column: 列名
            min_value: 最小值（None表示不限）
            max_value: 最大值（None表示不限）
        """
        super().__init__(
            name=f"Range_{column}",
            description=f"检测 '{column}' 是否在 [{min_value}, {max_value}] 范围内",
            severity=severity,
            **kwargs
        )
        self.column = column
        self.min_value = min_value
        self.max_value = max_value
    
    def validate(self, df: pd.DataFrame) -> RuleResult:
        """执行范围检测"""
        if self.column not in df.columns:
            return RuleResult(
                rule_name=self.name,
                passed=False,
                violations=[self._create_violation(f"列 '{self.column}' 不存在")]
            )
        
        violations = []
        
        # 转为数值类型（忽略非数值）
        values = pd.to_numeric(df[self.column], errors='coerce')
        
        # 检测最小值越界
        if self.min_value is not None:
            below_min = values < self.min_value
            below_min_rows = df[below_min].index.tolist()
            
            if below_min_rows:
                min_val_in_data = values[below_min].min()
                violations.append(self._create_violation(
                    message=f"列 '{self.column}' 有 {len(below_min_rows)} 个值小于最小值 {self.min_value}（最小为{min_val_in_data}）",
                    affected_rows=below_min_rows,
                    affected_columns=[self.column],
                    metrics={
                        'min_value_threshold': self.min_value,
                        'min_value_actual': float(min_val_in_data),
                        'violation_count': len(below_min_rows)
                    }
                ))
        
        # 检测最大值越界
        if self.max_value is not None:
            above_max = values > self.max_value
            above_max_rows = df[above_max].index.tolist()
            
            if above_max_rows:
                max_val_in_data = values[above_max].max()
                violations.append(self._create_violation(
                    message=f"列 '{self.column}' 有 {len(above_max_rows)} 个值大于最大值 {self.max_value}（最大为{max_val_in_data}）",
                    affected_rows=above_max_rows,
                    affected_columns=[self.column],
                    metrics={
                        'max_value_threshold': self.max_value,
                        'max_value_actual': float(max_val_in_data),
                        'violation_count': len(above_max_rows)
                    }
                ))
        
        return RuleResult(
            rule_name=self.name,
            passed=len(violations) == 0,
            violations=violations
        )

class PriceChangeRule(DataQualityRule):
    """价格突变检测规则（核心功能）
    
    检测相邻数据点的价格变化率，标记异常波动
    
    示例：
        rule = PriceChangeRule(
            price_column='price',
            id_column='product_id',
            time_column='crawled_at',
            threshold=0.5,  # 50%变化率
            severity=RuleSeverity.WARNING
        )
    """
    
    def __init__(
        self,
        price_column: str,
        id_column: str,
        time_column: Optional[str] = None,
        threshold: float = 0.5,
        severity: RuleSeverity = RuleSeverity.WARNING,
        **kwargs
    ):
        """
        参数:
            price_column: 价格列名
            id_column: 商品ID列（用于分组）
            time_column: 时间列（用于排序，None表示按索引）
            threshold: 变化率阈值（0.5表示50%）
        """
        super().__init__(
            name=f"PriceChange_{price_column}",
            description=f"检测价格变化率是否超过{threshold*100}%",
            severity=severity,
            **kwargs
        )
        self.price_column = price_column
        self.id_column = id_column
        self.time_column = time_column
        self.threshold = threshold
    
    def validate(self, df: pd.DataFrame) -> RuleResult:
        """执行价格突变检测"""
        # 检查必需列
        required_cols = [self.price_column, self.id_column]
        if self.time_column:
            required_cols.append(self.time_column)
        
        missing_cols = [col for col in required_cols if col not in df.columns]
        if missing_cols:
            return RuleResult(
                rule_name=self.name,
                passed=False,
                violations=[self._create_violation(f"缺失列: {missing_cols}")]
            )
        
        violations = []
        
        # 按商品ID分组处理
        for product_id, group in df.groupby(self.id_column):
            # 排序（按时间或索引）
            if self.time_column:
                group = group.sort_values(self.time_column)
            else:
                group = group.sort_index()
            
            # 只处理有多个记录的商品
            if len(group) < 2:
                continue
            
            # 计算价格变化率
            prices = pd.to_numeric(group[self.price_column], errors='coerce')
            
            # 去除NaN
            prices = prices.dropna()
            if len(prices) < 2:
                continue
            
            # 计算相邻价格的变化率
            price_changes = prices.pct_change().abs()
            
            # 找出超过阈值的变化
            abnormal_changes = price_changes[price_changes > self.threshold]
            
            if not abnormal_changes.empty:
                # 获取异常行的索引
                abnormal_indices = abnormal_changes.index.tolist()
                
                # 构造详细信息
                change_details = []
                for idx in abnormal_indices:
                    prev_idx = prices.index[prices.index.get_loc(idx) - 1]
                    prev_price = prices.loc[prev_idx]
                    curr_price = prices.loc[idx]
                    change_rate = (curr_price - prev_price) / prev_price
                    
                    change_details.append({
                        'row': int(idx),
                        'prev_price': float(prev_price),
                        'curr_price': float(curr_price),
                        'change_rate': float(change_rate)
                    })
                
                violations.append(self._create_violation(
                    message=f"商品 {product_id} 价格突变：{len(abnormal_changes)} 次超过{self.threshold*100}%",
                    affected_rows=abnormal_indices,
                    affected_columns=[self.price_column],
                    metrics={
                        'product_id': product_id,
                        'max_change_rate': float(abnormal_changes.max()),
                        'threshold': self.threshold,
                        'change_details': change_details
                    }
                ))
        
        return RuleResult(
            rule_name=self.name,
            passed=len(violations) == 0,
            violations=violations
        )

价格突变检测的核心算法：

python 复制代码

# 变化率计算公式
change_rate = (current_price - previous_price) / previous_price

# 示例：
# 原价: 100元
# 新价: 160元
# 变化率 = (160 - 100) / 100 = 0.6 (60%)
# 超过阈值50%，标记为异常

3. 一致性规则：离群点检测（Z-Score/IQR）

python 复制代码

# src/detectors/outlier.py
import pandas as pd
import numpy as np
from typing import List, Tuple
from src.core.rule_base import DataQualityRule, RuleResult, RuleSeverity

class ZScoreOutlierRule(DataQualityRule):
    """基于Z-Score的离群点检测
    
    原理：假设数据服从正态分布，计算每个值的Z-Score
    Z-Score = (x - mean) / std
    |Z-Score| > 3 视为离群点（99.7%置信区间）
    
    示例：
        rule = ZScoreOutlierRule(
            column='price',
            threshold=3.0,
            severity=RuleSeverity.INFO
        )
    """
    
    def __init__(
        self,
        column: str,
        threshold: float = 3.0,
        severity: RuleSeverity = RuleSeverity.INFO,
        **kwargs
    ):
        super().__init__(
            name=f"ZScoreOutlier_{column}",
            description=f"使用Z-Score检测 '{column}' 的离群点",
            severity=severity,
            **kwargs
        )
        self.column = column
        self.threshold = threshold
    
    def validate(self, df: pd.DataFrame) -> RuleResult:
        """执行Z-Score离群点检测"""
        if self.column not in df.columns:
            return RuleResult(
                rule_name=self.name,
                passed=False,
                violations=[self._create_violation(f"列 '{self.column}' 不存在")]
            )
        
        # 转为数值并去除NaN
        values = pd.to_numeric(df[self.column], errors='coerce').dropna()
        
        if len(values) < 3:
            # 数据太少无法计算
            return RuleResult(rule_name=self.name, passed=True)
        
        # 计算Z-Score
        mean = values.mean()
        std = values.std()
        
        if std == 0:
            # 标准差为0（所有值相同），无离群点
            return RuleResult(rule_name=self.name, passed=True)
        
        z_scores = np.abs((values - mean) / std)
        
        # 找出Z-Score超过阈值的行
        outlier_mask = z_scores > self.threshold
        outlier_indices = values[outlier_mask].index.tolist()
        
        if not outlier_indices:
            return RuleResult(rule_name=self.name, passed=True)
        
        # 构造违规记录
        outlier_values = values[outlier_mask].tolist()
        outlier_z_scores = z_scores[outlier_mask].tolist()
        
        violation = self._create_violation(
            message=f"列 '{self.column}' 检测到 {len(outlier_indices)} 个离群点（|Z-Score| > {self.threshold}）",
            affected_rows=outlier_indices,
            affected_columns=[self.column],
            metrics={
                'mean': float(mean),
                'std': float(std),
                'outlier_count': len(outlier_indices),
                'outlier_sample': [
                    {'row': int(idx), 'value': float(val), 'z_score': float(z)}
                    for idx, val, z in zip(outlier_indices[:5], outlier_values[:5], outlier_z_scores[:5])
                ]
            }
        )
        
        return RuleResult(
            rule_name=self.name,
            passed=False,
            violations=[violation]
        )

class IQROutlierRule(DataQualityRule):
    """基于IQR（四分位距）的离群点检测
    
    原理：
    Q1 = 第25百分位数
    Q3 = 第75百分位数
    IQR = Q3 - Q1
    下界 = Q1 - 1.5 * IQR
    上界 = Q3 + 1.5 * IQR
    超出上下界的值视为离群点
    
    优势：对非正态分布数据更鲁棒
    """
    
    def __init__(
        self,
        column: strier: float = 1.5,  # IQR倍数（1.5为标准，3.0为极端值）
        severity: RuleSeverity = RuleSeverity.INFO,
        **kwargs
    ):
        super().__init__(
            name=f"IQROutlier_{column}",
            description=f"使用IQR检测 '{column}' 的离群点",
            severity=severity,
            **kwargs
        )
        self.column = column
        self.multiplier = multiplier
    
    def validate(self, df: pd.DataFrame) -> RuleResult:
        """执行IQR离群点检测"""
        if self.column not in df.columns:
            return RuleResult(
                rule_name=self.name,
                passed=False,
                violations=[self._create_violation(f"列 '{self.column}' 不存在")]
            )
        
        values = pd.to_numeric(df[self.column], errors='coerce').dropna()
        
        if len(values) < 4:
            return RuleResult(rule_name=self.name, passed=True)
        
        # 计算四分位数
        Q1 = values.quantile(0.25)
        Q3 = values.quantile(0.75)
        IQR = Q3 - Q1
        
        # 计算上下界
        lower_bound = Q1 - self.multiplier * IQR
        upper_bound = Q3 + self.multiplier * IQR
        
        # 找出离群点
        outlier_mask = (values < lower_bound) | (values > upper_bound)
        outlier_indices = values[outlier_mask].index.tolist()
        
        if not outlier_indices:
            return RuleResult(rule_name=self.name, passed=True)
        
        outlier_values = values[outlier_mask].tolist()
        
        violation = self._create_violation(
            message=f"列 '{self.column}' 检测到 {len(outlier_indices)} 个离群点（IQR方法）",
            affected_rows=outlier_indices,
            affected_columns=[self.column],
            metrics={
                'Q1': float(Q1),
                'Q3': float(Q3),
                'IQR': float(IQR),
                'lower_bound': float(lower_bound),
                'upper_bound': float(upper_bound),
                'outlier_count': len(outlier_indices),
                'outlier_sample': [
                    {'row': int(idx), 'value': float(val)}
                    for idx, val in zip(outlier_indices[:5], outlier_values[:5])
                ]
            }
        )
        
        return RuleResult(
            rule_name=self.name,
            passed=False,
            violations=[violation]
        )

Z-Score vs IQR选择指南：

场景	推荐方法	原因
数据近似正态分布	Z-Score	统计意义明确
数据有明显偏斜	IQR	不受极端值影响
小样本（<30）	IQR	Z-Score不稳定
需要极端值检测	IQR (multiplier=3.0)	更严格的阈值

📊 完整示例：电商商品数据质量检测

python 复制代码

# examples/ecommerce_quality_check.py
import pandas as pd
from src.core.engine import DataQualityEngine
from src.rules.completeness import MissingRateRule, RequiredFieldsRule
from src.rules.accuracy import RangeRule, PriceChangeRule
from src.detectors.outlier import ZScoreOutlierRule, IQROutlierRule

def main():
    # 1. 加载数据（模拟电商商品数据）
    data = {
        'product_id': ['P001', 'P001', 'P001', 'P002', 'P002', 'P003', 'P003', 'P003'],
        'product_name': ['iPhone 15', 'iPhone 15', 'iPhone 15', '小米14', '小米14', 'Mac Book', None, 'Mac Book'],
        'price': [5999, 6199, 3000, 3999, 4199, 12999, 13999, 14999],  # P001第3次价格突降
        'rating': [4.8, 4.9, 4.7, 4.6, 15.0, 4.9, 4.8, 4.9],  # P002评分越界
        'stock': [100, 80, 60, 200, None, 50, 40, 30],
        'crawled_at': pd.date_range('2026-02-01', periods=8, freq='D')
    }
    
    df = pd.DataFrame(data)
    print("原始数据:")
    print(df)
    print("\n")
    
    # 2. 创建规则引擎
    engine = DataQualityEngine(max_workers=4)
    
    # 3. 注册规则
    
    # 3.1 完整性规则
    engine.register_rule(RequiredFieldsRule(
        columns=['product_id', 'price'],
        severity=RuleSeverity.CRITICAL
    ))
    
    engine.register_rule(MissingRateRule(
        columns=['product_name', 'stock'],
        threshold=0.1,  # 10%
        severity=RuleSeverity.WARNING
    ))
    
    # 3.2 准确性规则
    engine.register_rule(RangeRule(
        column='rating',
        min_value=0.0,
        max_value=10.0,
        severity=RuleSeverity.CRITICAL
    ))
    
    engine.register_rule(RangeRule(
        column='price',
        min_value=0.0,
        max_value=100000.0,
        severity=RuleSeverity.WARNING
    ))
    
    # 3.3 一致性规则（价格突变检测）
    engine.register_rule(PriceChangeRule(
        price_column='price',
        id_column='product_id',
        time_column='crawled_at',
        threshold=0.5,  # 50%
        severity=RuleSeverity.WARNING
    ))
    
    # 3.4 离群点检测
    engine.register_rule(ZScoreOutlierRule(
        column='price',
        threshold=2.5,
        severity=RuleSeverity.INFO
    ))
    
    # 4. 执行检测
    results = engine.validate(df, parallel=True, stop_on_critical=False)
    
    # 5. 标记异常数据
    df_marked = mark_violations(df, results)
    
    print("\n标记后数据（_quality_flag列）:")
    print(df_marked[['product_id', 'price', 'rating', '_quality_flag']])
    
    # 6. 导出结果
    df_marked.to_csv('data/output/quality_checked.csv', index=False)
    print("\n✅ 结果已保存至 data/output/quality_checked.csv")

def mark_violations(df: pd.DataFrame, results: Dict[str, RuleResult]) -> pd.DataFrame:
    """在DataFrame中标记异常行
    
    新增列:
        _quality_flag: PASS / WARNING / CRITICAL
        _violation_rules: 违反的规则列表
    """
    df = df.copy()
    df['_quality_flag'] = 'PASS'
    df['_violation_rules'] = ''
    
    for rule_name, result in results.items():
        if not result.passed:
            for violation in result.violations:
                for row_idx in violation.affected_rows:
                    if row_idx in df.index:
                        # 更新严重程度（取最严重的）
                        current_flag = df.loc[row_idx, '_quality_flag']
                        new_flag = violation.severity.value.upper()
                        
                        if new_flag == 'CRITICAL' or current_flag != 'CRITICAL':
                            df.loc[row_idx, '_quality_flag'] = new_flag
                        
                        # 追加规则名
                        current_rules = df.loc[row_idx, '_violation_rules']
                        df.loc[row_idx, '_violation_rules'] = (
                            f"{current_rules},{rule_name}" if current_rules else rule_name
                        )
    
    return df

if __name__ == '__main__':
    main()

运行输出：

json 复制代码

原始数据:
  product_id product_name   price  rating  stock crawled_at
0       P001    iPhone 15  5999.0     4.8  100.0 2026-02-01
1       P001    iPhone 15  6199.0     4.9   80.0 2026-02-02
2       P001    iPhone 15  3000.0     4.7   60.0 2026-02-03
3       P002        小米14  3999.0     4.6  200.0 2026-02-04
4       P002        小米14  4199.0    15.0    NaN 2026-02-05
5       P003     Mac Book 12999.0     4.9   50.0 2026-02-06
6       P003         None 13999.0     4.8   40.0 2026-02-07
7       P003     Mac Book 14999.0     4.9   30.0 2026-02-08

开始数据质量检测：8 行 × 6 列
已注册规则数: 6
执行规则: RequiredFields_product_id-price
执行规则: MissingRate_product_name-stock
执行规则: Range_rating
执行规则: Range_price
执行规则: PriceChange_price
执行规则: ZScoreOutlier_price

======================================================================
📊 数据质量检测报告
======================================================================
⏱️  总耗时: 0.15秒
📋 执行规则数: 6
✅ 通过规则: 3/6
⚠️  违规总数: 3
🚨 严重问题: 1
======================================================================

详细违规信息:

  [WARNING] MissingRate_product_name-stock
    - 列 'product_name' 缺失率为 12.50%（阈值10.0%）
      受影响行: 1 条
    - 列 'stock' 缺失率为 12.50%（阈值10.0%）
      受影响行: 1 条

  [CRITICAL] Range_rating
    - 列 'rating' 有 1 个值大于最大值 10.0（最大为15.0）
      受影响行: 1 条

  [WARNING] PriceChange_price
    - 商品 P001 价格突变：1 次超过50.0%
      受影响行: 1 条

======================================================================

标记后数据（_quality_flag列）:
  product_id   price  rating _quality_flag
0       P001  5999.0     4.8          PASS
1       P001  6199.0     4.9          PASS
2       P001  3000.0     4.7       WARNING
3       P002  3999.0     4.6          PASS
4       P002  4199.0    15.0      CRITICAL
5       P003 12999.0     4.9          PASS
6       P003 13999.0     4.8       WARNING
7       P003 14999.0     4.9          PASS

✅ 结果已保存至 data/output/quality_checked.csv

🎨 进阶：HTML质量报告生成

python 复制代码

# src/reporters/html_reporter.py
from jinja2 import Template
from typing import Dict
from src.core.rule_base import RuleResult
import pandas as pd

HTML_TEMPLATE = """
<!DOCTYPE html>
<html>
<head>
    <meta charset="UTF-8">
    <title>数据质量报告</title>
    <style>
        body { font-family: Arial, sans-serif; margin: 20px; }
        .header { background: #2c3e50; color: white; padding: 20px; border-radius: 5px; }
        .summary { display: flex; gap: 20px; margin: 20px 0; }
        .card { flex: 1; padding: 15px; border-radius: 5px; text-align: center; }
        .card.success { background: #27ae60; color: white; }
        .card.warning { background: #f39c12; color: white; }
        .card.critical { background: #e74c3c; color: white; }
        .rule-section { margin: 20px 0; }
        .violation { background: #ecf0f1; padding: 10px; margin: 5px 0; border-left: 4px solid #e74c3c; }
        table { width: 100%; border-collapse: collapse; margin: 10px 0; }
        th, td { border: 1px solid #ddd; padding: 8px; text-align: left; }
        th { background: #34495e; color: white; }
    </style>
</head>
<body>
    <div class="header">
        <h1>📊 数据质量检测报告</h1>
        <p>生成时间: {{ timestamp }}</p>
    </div>
    
    <div class="summary">
        <div class="card success">
            <h2>{{ passed_count }}</h2>
            <p>通过规则</p>
        </div>
        <div class="card warning">
            <h2>{{ warning_count }}</h2>
            <p>警告</p>
        </div>
        <div class="card critical">
            <h2>{{ critical_count }}</h2>
            <p>严重问题</p>
        </div>
    </div>
    
    {% for rule_name, result in results.items() %}
    <div class="rule-section">
        <h3>{{ rule_name }} {% if result.passed %}✅{% else %}❌{% endif %}</h3>
        <p>执行耗时: {{ result.execution_time:.3f }}秒</p>
        
        {% if not result.passed %}
            {% for violation in result.violations %}
            <div class="violation">
                <strong>{{ violation.severity.value.upper() }}</strong>: {{ violation.message }}
                <br>受影响行数: {{ violation.affected_rows|length }}
                {% if violation.metrics %}
                <br>指标: {{ violation.metrics }}
                {% endif %}
            </div>
            {% endfor %}
        {% endif %}
    </div>
    {% endfor %}
    
    <h3>数据预览（前10行）</h3>
    {{ dataframe_html|safe }}
</body>
</html>
"""

class HTMLReporter:
    """HTML格式质量报告生成器"""
    
    @staticmethod
    def generate(
        results: Dict[str, RuleResult],
        df: pd.DataFrame,
        output_path: str = 'data/output/quality_report.html'
    ):
        """生成HTML报告"""
        from datetime import datetime
        
        # 统(1 for r in results.values() if r.passed)
        warning_count = sum(
            sum(1 for v in r.violations if v.severity.value == 'warning')
            for r in results.values()
        )
        critical_count = sum(
            sum(1 for v in r.violations if v.severity.value == 'critical')
            for r in results.values()
        )
        
        # 渲染模板
        template = Template(HTML_TEMPLATE)
        html_content = template.render(
            timestamp=datetime.now().strftime('%Y-%m-%d %H:%M:%S'),
            results=results,
            passed_count=passed_count,
            warning_count=warning_count,
            critical_count=critical_count,
            dataframe_html=df.head(10).to_html()
        )
        
        # 保存文件
        with open(output_path, 'w', encoding='utf-8') as f:
            f.write(html_content)
        
        print(f"✅ HTML报告已生成: {output_path}")

📚 总结与延伸阅读

你已经掌握了什么？

✅ 质量规则体系 ：六大维度的工程化实现

✅ 设计模式应用 ：策略+责任链+工厂模式

✅ 统计学方法 ：Z-Score/IQR离群点检测

✅ 异常标记机制 ：自动化问题定位与追溯

✅ 可视化报告：HTML/JSON多格式输出

与商业产品对比

功能	本文方案	Great Expectations	Deequ	Datafold
学习曲线	✅ 低	⚠️ 中	❌ 高	⚠️ 中
定制性	✅ 强	⚠️ 中	✅ 强	❌ 弱
性能	⚠️ 单机	⚠️ 单机	✅ 分布式	✅ 云原生
成本	✅ 免费	✅ 开源	✅ 开源	❌ 付费

🌟 文末

好啦～以上就是本期的全部内容啦！如果你在实践过程中遇到任何疑问，欢迎在评论区留言交流，我看到都会尽量回复～咱们下期见！

小伙伴们在批阅的过程中，如果觉得文章不错，欢迎点赞、收藏、关注哦～
三连就是对我写作道路上最好的鼓励与支持！ ❤️🔥

✅ 专栏持续更新中｜建议收藏 + 订阅

墙裂推荐订阅专栏 👉 《Python爬虫实战》，本专栏秉承着以"入门 → 进阶 → 工程化 → 项目落地"的路线持续更新，争取让每一期内容都做到：

✅ 讲得清楚（原理）｜✅ 跑得起来（代码）｜✅ 用得上（场景）｜✅ 扛得住（工程化）

📣 想系统提升的小伙伴 ：强烈建议先订阅专栏《Python爬虫实战》，再按目录大纲顺序学习，效率十倍上升～

✅ 互动征集

想让我把【某站点/某反爬/某验证码/某分布式方案】等写成某期实战？

评论区留言告诉我你的需求，我会优先安排实现(更新)哒~

⭐️ 若喜欢我，就请关注我叭～（更新不迷路）

⭐️ 若对你有用，就请点赞支持一下叭～（给我一点点动力）

⭐️ 若有疑问，就请评论留言告诉我叭～（我会补坑 & 更新迭代）

✅ 免责声明

本文爬虫思路、相关技术和代码仅用于学习参考，对阅读本文后的进行爬虫行为的用户本作者不承担任何法律责任。

使用或者参考本项目即表示您已阅读并同意以下条款：

合法使用：不得将本项目用于任何违法、违规或侵犯他人权益的行为，包括但不限于网络攻击、诈骗、绕过身份验证、未经授权的数据抓取等。
风险自负：任何因使用本项目而产生的法律责任、技术风险或经济损失，由使用者自行承担，项目作者不承担任何形式的责任。
禁止滥用：不得将本项目用于违法牟利、黑产活动或其他不当商业用途。
使用或者参考本项目即视为同意上述条款,即 "谁使用，谁负责" 。如不同意，请立即停止使用并删除本项目。！！！

Python爬虫实战：数据质量治理实战 - 构建企业级规则引擎与异常检测系统！

全文目录：

🌟 开篇语

📊 摘要（Abstract）

🎯 背景与需求（Why）

为什么需要数据质量规则引擎？

数据质量问题的典型表现

目标架构与规则清单

⚖️ 合规与注意事项（必写）

数据质量治理的伦理原则

技术规范

🛠️ 技术选型与整体流程（What/How）

为什么选择Python + Pandas？

整体流程设计

📦 环境准备与依赖安装（可复现）

Python版本要求

依赖安装

项目结构

🏗️ 核心实现：规则基类与引擎框架

规则基类设计

规则引擎核心

📝 核心实现：具体规则类（完整性、准确性、一致性）

1. 完整性规则：缺失率检测

2. 准确性规则：范围检测与突变检测

3. 一致性规则：离群点检测（Z-Score/IQR）

📊 完整示例：电商商品数据质量检测

🎨 进阶：HTML质量报告生成

📚 总结与延伸阅读

你已经掌握了什么？

与商业产品对比

推荐阅读资料

🌟 文末

✅ 专栏持续更新中｜建议收藏 + 订阅

✅ 互动征集

✅ 免责声明