【论文笔记】Lost in Stories: Consistency Bugs in Long Story Generation by LLMs

论文信息

论文标题: Lost in Stories: Consistency Bugs in Long Story Generation by LLMs
论文作者: Junjie Li, Xinrui Guo et al. - Microsoft, Beijing
论文链接: http://arxiv.org/abs/2603.05890
代码链接: https://picrew.github.io/constory-bench.github.io/
论文关键词: Long-form Story Generation, Narrative Consistency


研究背景与动机

  • 长文本生成的挑战: 随着 LLMs 上下文窗口的扩大,模型生成的叙事内容可达数万字 。然而,模型在保持全局一致性(如追踪实体、事件、世界规则等)方面仍面临巨大挑战,往往只能做到局部流畅 。
  • 现有评估的局限: 目前的基准测试主要关注情节质量和流畅度,缺乏对跨上下文矛盾的系统隔离和可重复的大规模评估机制 。
  • 缺乏可解释性: 现有的"LLM-as-a-judge"协议通常缺乏明确的文本证据和可解释的依据 。

核心贡献

该研究提出了一个名为 ConStory-Bench 的基准测试框架,包含以下三个核心组件 :

  1. 大规模数据集: 包含 2,000 个提示词(Prompts),涵盖四种叙事任务场景(生成、续写、扩充、补完) 。
  2. 细粒度分类法: 定义了 5 个一级错误类别和 19 个细粒度子类型 。
  3. 自动化评估流水线 (CONSTORY-CHECKER): 一个四阶段的自动化流水线,能够检测矛盾并通过精确的文本引用提供证据链 。

一致性错误分类法

研究将一致性错误分为五大维度 :

  • 时间线与情节逻辑: 如时间跨度冲突、因果逻辑违背、被遗忘的情节元素 。
  • 人物塑造: 包括记忆矛盾(忘记之前的经历)、技能波动、能力丢失 。
  • 世界观与设定: 涉及核心规则违背、社会规范违背、地理位置冲突 。
  • 事实与细节一致性: 如外貌描述不匹配、名称混淆(角色名拼写变动)、数量矛盾 。
  • 叙事与风格: 包括人称混淆(如从第一人称突变为第三人称)、语调不一致、风格漂移 。

CONSTORY-CHECKER 评估方法

该工具通过四个阶段实现自动化评估 :

  • 阶段 1:分类引导提取。 利用特定类别的提示词扫描叙事,提取易错片段 。
  • 阶段 2:矛盾配对。 将提取的片段进行两两对比,分类为"一致"或"矛盾" 。
  • 阶段 3:证据链构建。 记录矛盾原因、引用原文位置并得出结论 。
  • 阶段 4:JSON 报告生成。 输出标准化的结构化报告 。

下面是针对 TimeLine & Plot Logic Category 的评估,供参考:


探究发现

通过对多种闭源和开源模型(如 GPT-5, Gemini 2.5, Claude 4.5, Qwen 3, DeepSeek V3 等)的评估,得出以下结论 :

  • 性能差异显著: GPT-5-REASONING 在一致性指标上表现最佳,其次是 Gemini-2.5-Pro 和 Claude-Sonnet-4.5 。
  • 错误随长度线性增长: 随着生成长度增加,错误数量呈近似线性增长趋势 。
  • 重灾区: 事实与细节一致性以及时间线与情节逻辑是最主要的失败模式 。
  • 不确定性关联: 错误往往出现在模型Token 级别熵(Entropy)较高(即模型信心较低)的区域 。
  • 位置分布: 矛盾点主要集中在叙事的中部(40%-60% 区域),而设定的"事实点"多出现在前部 。
  • 任务难度: 自由生成任务(Generation)的一致性挑战最大,其错误密度(CED)通常高于有上下文约束的任务 。

文章局限性

  • 文化单一性:目前仅限于英文小说,主要遵循西方叙事传统 。
  • 判断二元化:将一致性建模为二元判断,可能误判一些故意的文学手法(如反转或延迟信息披露) 。
  • 领域局限:主要聚焦于虚构文学,未涵盖技术文档或学术写作等长文本场景 。
  • 文本长度较短:评测的生成文本长度不满足现实中网文的场景数十万字的需求。
  • 缺乏对于长文本故事发展变化的适配,没有考虑的数十万字故事发展的一致性。故事是动态演进的,不是静态的,一致性是动态的。
相关推荐
min1811234561 天前
小型网站开发简易流程步骤 在线画图工具快速生成开发流程图方法
论文阅读·信息可视化·毕业设计·流程图·论文笔记
0x2112 天前
[论文阅读]DeepSeek-V3 Technical Report
论文阅读
SUNNY_SHUN2 天前
VLM走进农田:AgriChat覆盖3000+作物品类,607K农业视觉问答基准开源
论文阅读·人工智能·算法·开源
七元权2 天前
论文阅读-Fast-FoundationStereo
论文阅读
feasibility.3 天前
DreamZero技术解析:当世界模型成为机器人“物理大脑”
论文阅读·人工智能·机器人·零样本·具身智能·vla·世界模型
STLearner3 天前
WWW 2026 | 时空数据(Spatial Temporal)论文总结(交通预测,人群移动,轨迹表示,信控等)
大数据·论文阅读·人工智能·深度学习·机器学习·数据挖掘·自动驾驶
STLearner4 天前
WWW 2026 | 时间序列(Time Series)论文总结(预测,生成,插补,分类,异常检测等)
论文阅读·人工智能·深度学习·神经网络·算法·机器学习·数据挖掘
Biomamba生信基地4 天前
视频回放:《PHYTOMEDICINE》一作专访
论文阅读·生物信息学·单细胞测序
锅挤4 天前
来一篇儿:《Boosting Adversarial Attacks with Momentum》
论文阅读·机器学习
数说星榆1815 天前
罕见病例报告流程图学术论文用
论文阅读·人工智能·流程图