【论文笔记】Lost in Stories: Consistency Bugs in Long Story Generation by LLMs

论文信息

论文标题: Lost in Stories: Consistency Bugs in Long Story Generation by LLMs
论文作者: Junjie Li, Xinrui Guo et al. - Microsoft, Beijing
论文链接: http://arxiv.org/abs/2603.05890
代码链接: https://picrew.github.io/constory-bench.github.io/
论文关键词: Long-form Story Generation, Narrative Consistency


研究背景与动机

  • 长文本生成的挑战: 随着 LLMs 上下文窗口的扩大,模型生成的叙事内容可达数万字 。然而,模型在保持全局一致性(如追踪实体、事件、世界规则等)方面仍面临巨大挑战,往往只能做到局部流畅 。
  • 现有评估的局限: 目前的基准测试主要关注情节质量和流畅度,缺乏对跨上下文矛盾的系统隔离和可重复的大规模评估机制 。
  • 缺乏可解释性: 现有的"LLM-as-a-judge"协议通常缺乏明确的文本证据和可解释的依据 。

核心贡献

该研究提出了一个名为 ConStory-Bench 的基准测试框架,包含以下三个核心组件 :

  1. 大规模数据集: 包含 2,000 个提示词(Prompts),涵盖四种叙事任务场景(生成、续写、扩充、补完) 。
  2. 细粒度分类法: 定义了 5 个一级错误类别和 19 个细粒度子类型 。
  3. 自动化评估流水线 (CONSTORY-CHECKER): 一个四阶段的自动化流水线,能够检测矛盾并通过精确的文本引用提供证据链 。

一致性错误分类法

研究将一致性错误分为五大维度 :

  • 时间线与情节逻辑: 如时间跨度冲突、因果逻辑违背、被遗忘的情节元素 。
  • 人物塑造: 包括记忆矛盾(忘记之前的经历)、技能波动、能力丢失 。
  • 世界观与设定: 涉及核心规则违背、社会规范违背、地理位置冲突 。
  • 事实与细节一致性: 如外貌描述不匹配、名称混淆(角色名拼写变动)、数量矛盾 。
  • 叙事与风格: 包括人称混淆(如从第一人称突变为第三人称)、语调不一致、风格漂移 。

CONSTORY-CHECKER 评估方法

该工具通过四个阶段实现自动化评估 :

  • 阶段 1:分类引导提取。 利用特定类别的提示词扫描叙事,提取易错片段 。
  • 阶段 2:矛盾配对。 将提取的片段进行两两对比,分类为"一致"或"矛盾" 。
  • 阶段 3:证据链构建。 记录矛盾原因、引用原文位置并得出结论 。
  • 阶段 4:JSON 报告生成。 输出标准化的结构化报告 。

下面是针对 TimeLine & Plot Logic Category 的评估,供参考:


探究发现

通过对多种闭源和开源模型(如 GPT-5, Gemini 2.5, Claude 4.5, Qwen 3, DeepSeek V3 等)的评估,得出以下结论 :

  • 性能差异显著: GPT-5-REASONING 在一致性指标上表现最佳,其次是 Gemini-2.5-Pro 和 Claude-Sonnet-4.5 。
  • 错误随长度线性增长: 随着生成长度增加,错误数量呈近似线性增长趋势 。
  • 重灾区: 事实与细节一致性以及时间线与情节逻辑是最主要的失败模式 。
  • 不确定性关联: 错误往往出现在模型Token 级别熵(Entropy)较高(即模型信心较低)的区域 。
  • 位置分布: 矛盾点主要集中在叙事的中部(40%-60% 区域),而设定的"事实点"多出现在前部 。
  • 任务难度: 自由生成任务(Generation)的一致性挑战最大,其错误密度(CED)通常高于有上下文约束的任务 。

文章局限性

  • 文化单一性:目前仅限于英文小说,主要遵循西方叙事传统 。
  • 判断二元化:将一致性建模为二元判断,可能误判一些故意的文学手法(如反转或延迟信息披露) 。
  • 领域局限:主要聚焦于虚构文学,未涵盖技术文档或学术写作等长文本场景 。
  • 文本长度较短:评测的生成文本长度不满足现实中网文的场景数十万字的需求。
  • 缺乏对于长文本故事发展变化的适配,没有考虑的数十万字故事发展的一致性。故事是动态演进的,不是静态的,一致性是动态的。
相关推荐
智算菩萨3 小时前
ChatGPT 5.4文献检索实战指南:从入门到精通的学术搜索方法论
论文阅读·人工智能·ai·chatgpt·全文检索
AustinCyy18 小时前
【论文笔记】Quantifying Document Impact in RAG-LLMs
论文阅读
想看雪的瓜1 天前
PPT给电镜图元素单独上色—让SEM/TEM图,从“灰”变“高级”
论文阅读·论文笔记
Editor_li1 天前
营销界期刊杂志投稿发表
论文阅读·学习
AustinCyy1 天前
【论文笔记】Learning to Retrieve In-Context Examples for Large Language Models
论文阅读·人工智能·语言模型
论缘投稿网1 天前
机械设计论文题目参考
论文阅读·论文笔记
xx_xxxxx_2 天前
多模态动态融合模型Predictive Dynamic Fusion论文阅读与代码分析3-部分数学理论基础
论文阅读·机器学习·transformer·多模态
浩哥依然2 天前
【论文笔记之 ULCNET】Ultra Low Complexity Deep Learning Based Noise Suppression
论文阅读·深度学习·神经网络·语音增强·语音降噪小模型
做cv的小昊3 天前
【Video Agent】(Arxiv2601,Meta)Agentic Very Long Video Understanding
论文阅读·计算机视觉·语言模型·音视频·openai·论文笔记·视频理解