【不利用外界知识克服大模型的幻觉】Zero-knowledge LLM hallucination detection and mitigation

背景

LLM 能力强,但会"幻觉":大语言模型虽然表现优异,但经常生成听起来合理却事实错误的内容,这被称为"幻觉"(hallucination)。

风险高:在企业或关键应用中,这种错误可能带来严重后果。

研究目标

开发一个集成检测与修正的系统,不依赖外部知识源(如搜索引擎或数据库),就能识别并修正幻觉内容。

方法

他们提出了一个叫做 FINCH-ZK 的黑箱框架,核心有两个创新点:

  1. 跨模型一致性检查(Cross-model consistency):
    用多个不同的模型生成对同一问题的回答。
    比较这些回答之间的差异,找出不一致的地方,从而识别可能的幻觉。
  2. 精准修正(Targeted mitigation):
    不整段重写回答,而是只修改有问题的部分。
    保持正确内容不变,提升整体准确性。

对方法的具体解释

1. 跨模型一致性检查

  1. 生成 prompt 变体:

    原 prompt → 改写/扩写/拆解成 7 条语义等价但措辞不同的 prompt

    【补充解释】"专用廉价模型" 一次性离线生成,不再经过 Claude / Llama / DeepSeek 这些"考生模型"。

  2. 交叉采样:
    相同的种子数,就会得到相同的十对数据

    4 个模型 × 7 条 prompt → 最多 28 条回答,轮询顺序取 10 条作为样本集 S

    【补充解释】4*7=28条,取其中的10条,这10条怎么得来的?固定随机数种子,用固定的算法得到

    【"轮询顺序"就是:洗牌一次,然后按序号循环拿 prompt 和模型,10 行代码就能跑出永远相同的 10 条样本集 S】

  • 解释1:
    4个模型是什么?4个模型是采样器,可以包括考生模型
  • 解释2:
    10条怎么得来的?
    如图

  1. 分块:
    把目标模型(例如 Claude 4)的回答 rT 按句子切成块 B = {b1,...,b11}
    【补充解释】
  1. 打擂台:

    对每个块 bi,让"评委模型"J(便宜快速的 Claude 3-Haiku)把它与 10 条样本逐块对比,输出ACCURATE / NEUTRAL / CONTRADICTION

    【补充解释】

  2. 加权投票:

    给 CONTRADICTION 权重 4,ACCURATE 权重 2,NEUTRAL 权重 1,算出 bi 的幻觉分数。

    分数 > 0.67 就标为"幻觉块",并生成一句错误摘要 ei

    【补充解释】

结论

多数可以抵消幻觉

2. 精准修正(Targeted mitigation)方法

目标回答 rT

↓ 句子切分

{b1,b2...bk}

↓ 逐块 vs 样本集 S 投票

标记幻觉块 bi

↓ 1. 块级修正

生成 bi′

↓ 2. 拼接

得到 r′

↓ 3. 跨模型润色

参考 S 生成最终 r″

相关推荐
Tadas-Gao12 小时前
从“驯马”到“驭队”:Harness Engineering 如何重构 AI 产品化的底层逻辑
人工智能·语言模型·架构·大模型·llm·harness
熊猫钓鱼>_>15 小时前
从零构建大模型可调用的Skill:基于Function Calling的完整指南
人工智能·算法·语言模型·架构·agent·skill·functioncall
stereohomology16 小时前
大语言模型的认知边界 & 在认知边界处的系统性崩溃
人工智能·语言模型·自然语言处理
搜狐技术产品小编202316 小时前
智能代码审查基于大语言模型的自动化代码质量保障平台设计与实践
运维·人工智能·语言模型·自然语言处理·自动化
XuecWu317 小时前
原生多模态颠覆Scaling Law?解读语言“参数需求型”与视觉“数据需求型”核心差异
人工智能·深度学习·算法·计算机视觉·语言模型
小超同学你好18 小时前
LangGraph 25. 实战:Agent资源优化怎么做?用 State 与条件边管理预算、取证与模型档位(附 SRE 分诊 demo)
人工智能·深度学习·语言模型
菱玖18 小时前
RAG 技术详解
人工智能·语言模型·aigc
stereohomology19 小时前
大语言模型对大语言模型进行的批评和自我批评
人工智能·语言模型·自然语言处理
海兰19 小时前
【第1篇 】生成式AI的崛起:从语言模型到智能体
人工智能·语言模型·自然语言处理
lifallen20 小时前
Flink Agents:Python 执行链路与跨语言 Actor (PyFlink Agent)
java·大数据·人工智能·python·语言模型·flink