【大语言模型】 AVGen-Bench:一个用于文本到音频-视频生成的多粒度、任务驱动型评估基准文本到音频-视频(T2AV)生成正迅速成为媒体创作的核心接口,然而其评估体系仍然支离破碎。现有的基准测试主要在隔离状态下评估音频和视频,或依赖粗糙的嵌入相似度,无法捕捉真实场景提示词所要求的细粒度联合正确性。为此,我们引入了AVGen-Bench,一个面向T2AV生成的任务驱动型基准测试,其特点是涵盖了11个真实世界类别的高质量提示词。为了支持全面的评估,我们提出了一个多粒度评估框架,该框架结合了轻量级专家模型和多模态大语言模型(MLLMs),能够实现从感知质量到细粒度语义可控性的评估。我们的评估揭示了模