【AI测试数据及模型质量2】换一批测试数据，模型得分差20%——AI评测翻车的根子，90%在数据质量

数据质量六维度：准确性、完整性、一致性、时效性、代表性、合规性

测试员周周 | 2026-05-08

坐标北京，14年测试老兵，正在转型 AI 质量保障

引子

跑 AGENT_BENCH 测试的时候，我发现一个问题：同样的模型、同样的任务，换一批测试数据，得分能差 20%。

一开始以为是模型不稳定。后来逐条检查测试数据才发现------数据本身有问题。

有些测试用例的"正确答案"是编的，有些边界条件没覆盖，有些数据和生产环境的数据分布完全对不上。数据质量不行，测出来的模型分数自然不可信。

数据质量不是单一指标，是六个维度的综合评估。任何一个维度短板，都会拖垮评测结果。

这篇文章讲六维度怎么测、怎么量化、怎么修。有代码、有案例、有踩坑经验。

一、六个维度分别测什么

1. 准确性（Accuracy）：数据是否正确

测量方法 ：抽样人工审核、事实核查、交叉验证
目标：≥95%
权重：高

这是最容易理解、也最容易被高估的维度。

很多团队说"标注准确率95%"，但抽样复核的时候发现只有80%------剩下的15%不是"小问题"。模型会把这些错误当成规律学。

真实案例：某金融AI训练数据中，8%的征信报告有录入错误。模型学到这些错误后，对部分用户的风险评估出现系统性偏差。

怎么测：

随机抽样100-200条
人工逐条核对（不能只看表面，要交叉验证）
计算准确率 = 正确数 / 总抽样数

常见坑：

抽样不随机（只抽容易验证的）
审核标准不一致（三个人审同一批数据，结果差20%）
只测"有答案"的数据，不测"没答案"的

2. 完整性（Completeness）：数据是否完整

测量方法 ：检查必填字段缺失率
目标：≥90%
权重：中

一个用户数据缺少交易记录，这条数据还能用吗？能用，但质量大打折扣。

完整性不是"有没有"的问题，是"缺多少"的问题。

真实案例：某电商推荐系统，30%的用户缺少浏览历史数据。模型对这部分用户的推荐准确率比完整用户低40%。

怎么测：

定义必填字段列表（如 user_id、amount、date）
统计每条数据的必填字段完整率
计算整体完整率 = 完整记录数 / 总记录数

常见坑：

必填字段定义不合理（把可选字段当必填）
只统计"完全缺失"，不统计"部分缺失"
忽略嵌套字段的缺失（如 JSON 里的子字段）

3. 一致性（Consistency）：数据是否自洽

测量方法 ：检测数据冲突（同一事实在不同文档中描述不同）
目标：冲突率 <5%
权重：高

同一用户在不同系统里的年龄差3岁、性别不一致------这种数据喂给模型，模型会困惑。模型困惑的结果就是输出不稳定。

真实案例：某金融AI用于风险评估，训练数据来自用户申请、征信报告、交易记录三个系统。同一用户在不同系统中的信息不一致，导致模型学习混乱。六维度评估中一致性只有70%，修复后模型质量提升15%。

怎么测：

定义一致性规则（如"同一用户的年龄在不同系统中必须一致"）
跨系统/跨文档比对
统计冲突率 = 冲突记录数 / 总记录数

常见坑：

只测单表一致性，不测跨表一致性
忽略时间维度（同一用户不同时间的数据是否合理）
冲突规则定义太松（漏掉隐性冲突）

4. 时效性（Timeliness）：数据是否及时

测量方法 ：数据年龄分布（多少数据是1年内的）
目标：≥80%数据在1年内
权重：中

用2023年的数据训练模型去预测2026年的用户行为，结果可想而知。不是旧数据不能用，是旧数据的权重要降。

真实案例：某金融AI训练数据中，40%的数据超过1年。模型对近期用户行为的预测准确率比历史数据低25%。

怎么测：

计算每条数据的"年龄"（当前时间 - 数据生成时间）
统计年龄分布（0-3个月、3-6个月、6-12个月、1-2年、2年以上）
计算"新鲜数据"占比（通常定义为1年内）

常见坑：

只看"最新数据"，不关注整体分布
忽略数据更新频率（有些数据需要每天更新，有些每周就够了）
没有设定数据过期策略

5. 代表性（Representativeness）：数据是否代表真实分布

测量方法 ：KL散度对比样本分布与总体分布
目标：KL散度 <0.1
权重：高

这是最难测的一个维度。KL散度需要知道总体分布，但总体分布往往未知。一个可行的近似方法：用生产数据作为总体分布的参考。

真实案例：某金融AI训练数据中，年轻用户（18-30岁）占比只有15%，但生产环境中年轻用户占比35%。模型对年轻用户的评估准确率比整体低30%。

怎么测：

计算样本分布（各年龄段、各收入段、各地区的占比）
用生产数据作为总体分布的近似
计算KL散度（越小越代表样本接近总体）

常见坑：

用"看起来差不多"代替量化测量
只测单一维度（如只测年龄分布，不测收入分布）
忽略长尾分布（少数群体虽然占比小，但影响大）

6. 合规性（Compliance）：数据是否合规

测量方法 ：检查PII脱敏、用户授权、数据最小化
目标：100%合规
权重：一票否决

合规性是一票否决。不合规的数据，其他维度再好也不能用。

真实案例：某公司因使用未授权的用户数据训练AI，被罚款200万。数据质量其他五个维度都是95%以上，但合规性0分------整体质量直接归零。

怎么测：

检查PII（个人身份信息）是否脱敏
检查每条数据是否有用户授权
检查是否遵循数据最小化原则（只收集必要数据）

常见坑：

脱敏不彻底（手机号只脱敏中间4位，前后8位仍可定位到个人）
授权记录不完整（有授权但找不到对应关系）
忽略数据跨境合规（GDPR、数据出境安全评估）

二、金融AI的六维度评估案例

某金融AI用于风险评估，训练数据来自用户申请、征信报告、交易记录。团队说"数据质量很好"，但模型在部分用户群体上表现极差。

六维度评估结果：

维度	得分	问题	影响
准确性	92%	征信报告有8%的录入错误	模型学到错误规律
完整性	85%	部分用户缺少交易记录	推荐准确率降低40%
一致性	70%	同一用户在不同系统中的信息不一致	模型学习混乱
时效性	60%	40%的数据超过1年	预测准确率降低25%
代表性	55%	年轻用户数据不足	年轻用户评估不准
合规性	95%	部分数据缺少用户授权	法律风险

短板很明显：一致性（70%）和代表性（55%）。

修复方案：

统一数据源，消除跨系统冲突（一致性提升到85%）
补充年轻用户数据，使样本分布接近生产环境（代表性提升到75%）

结果：模型质量提升15%。模型没动，数据改了。

三、测量代码

复制代码

import random
from datetime import datetime
from scipy.stats import entropy
import numpy as np


def measure_data_quality_six_dimensions(data, production_data=None):
    """
    六维度数据质量评估
    
    Args:
        data: 待评估的数据集
        production_data: 生产数据（用于计算代表性）
    
    Returns:
        dict: 六个维度的质量分数
    """
    quality = {}
    
    # 1. 准确性：抽样人工审核
    sample = random.sample(data, min(200, len(data)))
    accurate = sum(1 for item in sample if verify_fact(item))
    quality["accuracy"] = accurate / len(sample)
    
    # 2. 完整性：检查必填字段
    required_fields = ["user_id", "amount", "date"]
    complete = sum(1 for item in data 
                   if all(f in item and item[f] for f in required_fields))
    quality["completeness"] = complete / len(data)
    
    # 3. 一致性：检测冲突
    conflicts = detect_conflicts(data)
    quality["consistency"] = 1 - conflicts / len(data)
    
    # 4. 时效性：数据年龄分布
    fresh = sum(1 for item in data 
                if (datetime.now() - item["timestamp"]).days < 365)
    quality["timeliness"] = fresh / len(data)
    
    # 5. 代表性：KL散度（需要生产数据）
    if production_data:
        sample_dist = compute_distribution(data)
        population_dist = compute_distribution(production_data)
        # 按键排序确保两个分布的值的顺序一致
        all_keys = sorted(set(sample_dist.keys()) | set(population_dist.keys()))
        pk = [sample_dist.get(k, 0) for k in all_keys]
        qk = [population_dist.get(k, 0) for k in all_keys]
        # 拉普拉斯平滑：避免 qk 中为 0 导致 KL 散度为 inf
        epsilon = 1e-10
        pk = [max(p, epsilon) for p in pk]
        qk = [max(q, epsilon) for q in qk]
        # 重新归一化
        pk_sum = sum(pk)
        qk_sum = sum(qk)
        pk = [p / pk_sum for p in pk]
        qk = [q / qk_sum for q in qk]
        kl = entropy(pk, qk)
        quality["representativeness"] = max(0, 1 - kl)
    else:
        quality["representativeness"] = None  # 无法计算
    
    # 6. 合规性：检查PII脱敏
    compliant = all(check_compliance(item) for item in data)
    quality["compliance"] = 1.0 if compliant else 0.0
    
    return quality


def verify_fact(item):
    """事实核查（需人工或外部数据源）"""
    # 实际实现中，这里需要调用外部API或人工审核
    return True


def detect_conflicts(data):
    """检测数据冲突"""
    # 按user_id分组，检查同一用户在不同记录中的一致性
    from collections import defaultdict
    user_records = defaultdict(list)
    for item in data:
        user_records[item["user_id"]].append(item)
    
    conflicts = 0
    for uid, records in user_records.items():
        if len(records) > 1:
            # 检查关键字段是否一致
            for field in ["age", "gender"]:
                values = set(r.get(field) for r in records)
                if len(values) > 1:
                    conflicts += 1
    return conflicts


def compute_distribution(data):
    """计算数据分布（按年龄段）"""
    from collections import Counter
    ages = [item["age"] for item in data if "age" in item]
    bins = [18, 30, 40, 50, 60, 100]
    age_groups = np.digitize(ages, bins)
    counts = Counter(age_groups)
    total = sum(counts.values())
    # 确保所有可能的键都有值（避免 KL 散度计算时键不匹配）
    all_keys = set(range(0, len(bins) + 1))
    return {k: counts.get(k, 0) / total for k in all_keys}


def check_compliance(item):
    """检查合规性（PII脱敏、用户授权）"""
    # 检查手机号是否脱敏
    phone = item.get("phone", "")
    if phone and len(phone) <span class="wx-em-red"> 11 and phone[3:7].isdigit():
        return False  # 未脱敏
    
    # 检查是否有用户授权
    if not item.get("user_consent"):
        return False
    
    return True


# 使用示例
if __name__ </span> "__main__":
    # 模拟数据
    data = [
        {"user_id": "U001", "amount": 100, "date": "2025-01-01", 
         "age": 25, "gender": "M", "phone": "138****5678", 
         "user_consent": True, "timestamp": datetime(2025, 1, 1)},
        {"user_id": "U002", "amount": 200, "date": "2025-02-01",
         "age": 35, "gender": "F", "phone": "139****1234",
         "user_consent": True, "timestamp": datetime(2025, 2, 1)},
    ]
    
    quality = measure_data_quality_six_dimensions(data)
    print("六维度质量评估结果：")
    for dim, score in quality.items():
        if score is not None:
            print(f"  {dim}: {score:.2%}")
        else:
            print(f"  {dim}: 无法计算（缺少生产数据）")

四、注意事项

1. 不要用一个综合分数掩盖短板

准确性95%但代表性50%，整体质量就是50%。看木桶的短板，别看最长的那块板。

很多团队喜欢算一个"综合质量分"------准确性95% × 权重0.3 + 完整性90% × 权重0.2 + ... = 87分。这个分数看起来不错，但掩盖了代表性只有50%的问题。

正确做法：六个维度独立展示，任何一个维度低于阈值就告警。

2. 代表性最难测量

KL散度需要知道总体分布，但总体分布往往未知。可以用生产数据作为近似，但生产数据本身也可能有偏差。

实用建议：

如果生产数据量大（>10万条），直接用生产数据分布作为总体分布
如果生产数据量小，用行业报告或公开数据作为参考
至少测年龄、收入、地区三个维度的代表性

3. 合规性是一票否决

合规性不达标，其他维度再好也没用。不合规的数据不能用，没得商量。

合规检查清单：

PII（手机号、身份证、银行卡）已脱敏
每条数据有用户授权记录
遵循数据最小化原则（不收集非必要数据）
数据跨境合规（如涉及GDPR、数据出境）
数据保留期限合规（超期数据已删除）

五、总结

数据质量六维度独立测量，取最低分作为整体质量瓶颈。哪个维度最低，就先修哪个。

优先级：合规性 > 准确性 > 一致性 > 代表性 > 完整性 > 时效性

合规性是红线，准确性是基础，一致性影响模型稳定性，代表性影响模型泛化能力，完整性和时效性是锦上添花。

你的数据质量六维度分别是什么水平？哪个维度是短板？