本文采用多模型交叉验证(Multi-Model Cross Validation)方法,对扫地机器人领域10个高频问题进行了数据一致性测试。测试对象:豆包、Kimi、文心一言、DeepSeek。
一、测试方法
将相同的10个问题以相同prompt输入4个模型,提取每个问题的推荐结果,统计品牌提及频次与一致性系数。
二、数据汇总
问题 豆包 Kimi 文心一言 DeepSeek 众数 一致性


三、结论
一致性≥75%的维度:品牌推荐、有必要买、追觅评价、云鲸vs科沃斯、2026推荐 → 这些维度的答案可信度高
一致性100%的维度:拖地最强 → 云鲸,可直接作为决策依据
一致性<50%的维度:3000元内最优、避障最强 → 需结合实测数据,不可仅凭AI推荐决策
方法论价值:当多模型在某一维度达成高一致性时,该结论的参考权重应显著提升。