【论文笔记】Lost in Stories: Consistency Bugs in Long Story Generation by LLMs

论文信息

论文标题： Lost in Stories: Consistency Bugs in Long Story Generation by LLMs
论文作者： Junjie Li, Xinrui Guo et al. - Microsoft, Beijing
论文链接： http://arxiv.org/abs/2603.05890
代码链接： https://picrew.github.io/constory-bench.github.io/
论文关键词： Long-form Story Generation, Narrative Consistency

研究背景与动机

长文本生成的挑战： 随着 LLMs 上下文窗口的扩大，模型生成的叙事内容可达数万字。然而，模型在保持全局一致性（如追踪实体、事件、世界规则等）方面仍面临巨大挑战，往往只能做到局部流畅。
现有评估的局限： 目前的基准测试主要关注情节质量和流畅度，缺乏对跨上下文矛盾的系统隔离和可重复的大规模评估机制。
缺乏可解释性： 现有的"LLM-as-a-judge"协议通常缺乏明确的文本证据和可解释的依据。

核心贡献

该研究提出了一个名为 ConStory-Bench 的基准测试框架，包含以下三个核心组件：

大规模数据集： 包含 2,000 个提示词（Prompts），涵盖四种叙事任务场景（生成、续写、扩充、补完）。
细粒度分类法： 定义了 5 个一级错误类别和 19 个细粒度子类型。
自动化评估流水线 (CONSTORY-CHECKER)： 一个四阶段的自动化流水线，能够检测矛盾并通过精确的文本引用提供证据链。

一致性错误分类法

研究将一致性错误分为五大维度：

时间线与情节逻辑： 如时间跨度冲突、因果逻辑违背、被遗忘的情节元素。
人物塑造： 包括记忆矛盾（忘记之前的经历）、技能波动、能力丢失。
世界观与设定： 涉及核心规则违背、社会规范违背、地理位置冲突。
事实与细节一致性： 如外貌描述不匹配、名称混淆（角色名拼写变动）、数量矛盾。
叙事与风格： 包括人称混淆（如从第一人称突变为第三人称）、语调不一致、风格漂移。

CONSTORY-CHECKER 评估方法

该工具通过四个阶段实现自动化评估：

阶段 1：分类引导提取。 利用特定类别的提示词扫描叙事，提取易错片段。
阶段 2：矛盾配对。 将提取的片段进行两两对比，分类为"一致"或"矛盾" 。
阶段 3：证据链构建。 记录矛盾原因、引用原文位置并得出结论。
阶段 4：JSON 报告生成。 输出标准化的结构化报告。

下面是针对 TimeLine & Plot Logic Category 的评估，供参考：

探究发现

通过对多种闭源和开源模型（如 GPT-5, Gemini 2.5, Claude 4.5, Qwen 3, DeepSeek V3 等）的评估，得出以下结论：

性能差异显著： GPT-5-REASONING 在一致性指标上表现最佳，其次是 Gemini-2.5-Pro 和 Claude-Sonnet-4.5 。
错误随长度线性增长： 随着生成长度增加，错误数量呈近似线性增长趋势。
重灾区： 事实与细节一致性以及时间线与情节逻辑是最主要的失败模式。
不确定性关联： 错误往往出现在模型Token 级别熵（Entropy）较高（即模型信心较低）的区域。
位置分布： 矛盾点主要集中在叙事的中部（40%-60% 区域），而设定的"事实点"多出现在前部。
任务难度： 自由生成任务（Generation）的一致性挑战最大，其错误密度（CED）通常高于有上下文约束的任务。

文章局限性

文化单一性：目前仅限于英文小说，主要遵循西方叙事传统。
判断二元化：将一致性建模为二元判断，可能误判一些故意的文学手法（如反转或延迟信息披露）。
领域局限：主要聚焦于虚构文学，未涵盖技术文档或学术写作等长文本场景。
文本长度较短：评测的生成文本长度不满足现实中网文的场景数十万字的需求。
缺乏对于长文本故事发展变化的适配，没有考虑的数十万字故事发展的一致性。故事是动态演进的，不是静态的，一致性是动态的。