IJCV 2026|让重复视频片段拥有“唯一”字幕,判别性提示 CDP,检索性能提升 15%

导读

日常生活中,视频里的动作、场景、人物往往高度重复。现有视频字幕模型独立处理每个片段,导致大量片段获得完全相同的描述------在 Ego4D 数据集中,使用现成字幕器生成的片段中 66%与至少另一个片段共享相同字幕。这种重复性严重影响了基于文本的视频检索:用户必须线性浏览所有相似片段才能找到想要的。

布里斯托大学与牛津大学合作提出 "Captioning by Discriminative Prompting (CDP)",通过观察一组视觉相似片段,预测能够区分它们的"判别性提示",从而为每个片段生成唯一字幕。在自建的第一视角和循环电影评测基准上,CDP 将 text→video R@1 分别提升了 15%和10%,Cycle@1 提升最高达 35.1%。该方法即插即用,无需微调字幕模型,推理速度仅增加约 1.3 秒/片段。


文章信息

  • 标题:It's Just Another Day: Unique Video Captioning by Discriminative Prompting
  • 作者:Toby Perrett, Tengda Han, Dima Damen, Andrew Zisserman

  • 机构:布里斯托大学(University of Bristol)、牛津大学(University of Oxford)

  • 发表:International Journal of Computer Vision (IJCV), 2026

  • 代码:https://tobyperrett.github.io/its-just-another-day


一、重复片段带来的检索困境

生活是充满重复的。日常活动的视频不可避免地包含视觉上相似的事件、场所、人物和动作。当使用现成的视频字幕模型(如 Zhao et al. 2023)时,每个片段被独立处理,结果就是大量片段获得了完全相同的描述。在 Ego4D 数据集中,**66%**的片段与至少另一个片段共享相同的字幕,因此没有唯一标识。

这种字幕的唯一性缺失严重影响了基于文本的检索。当用户搜索"打开冰箱"时,会得到几十条完全相同的字幕结果,必须逐一浏览才能找到目标片段。现有的字幕模型专注于生成高质量的描述,却从未考虑过"唯一性"这一需求。

本文提出的 CDP 框架首次系统性地解决了视频片段的唯一字幕生成问题。它的核心思路是:与其让字幕器独立工作,不如让它"看到"所有相似片段,然后找出每个片段独有的特征,并用这些特征来引导生成。


二、CDP 方法:从判别性提示到唯一字幕

2.1 问题形式化

给定 N 个视频片段集合 V = {v₁, v₂, ..., v_N},目标是输出一组唯一的字幕 C = {c₁, c₂, ..., c_N}。模型假设已有一个冻结的视频字幕器 Θ(v, p)(可接受可选提示 p)和一个双编码器视频‑文本模型(编码器 f 和 g)。唯一性由余弦相似度条件严格定义(原文 Eq.1):v_i 与 c_i 的相似度必须大于 v_i 与任何其他 c_j 的相似度,也大于任何其他 v_j 与 c_i 的相似度。

2.2 判别性提示与组合搜索

方法的核心是使用一组固定提示库 B(例如从训练集叙述中提取的高频 N‑gram)。对于每个片段 v_i,系统尝试每个提示 p,计算视频‑字幕相似度 s(v_i, v_i, p)。并定义唯一性余量M(v_i, p) = s(v_i, v_i, p) - max( max_{j≠i} s(v_j, v_i, p), max_{j≠i} s(v_i, v_j, p) )。选择使余量最大的提示作为判别性提示。当单个提示不够时,允许组合最多 α 个提示(默认 α=3),取平均相似度。如果最大余量仍低于阈值 λ(默认 0.1),则通过时间扩展:将片段延长,观察后续不同发展(如"X 然后 Y" vs "X 然后 Z")。

2.3 CDPNet:高效近似搜索

组合全搜索计算量巨大(O(NP^α))。为此,训练一个轻量级网络 CDPNet,只用视频片段和提示直接预测相似度,避免实际生成字幕和计算嵌入。CDPNet 是一个 2 层 4 头的 Transformer,总参数量仅 1.6M,预测误差均值为 0,标准差 0.11。最终,CDP 将单片段字幕时间从 4.5 秒增加到 5.8 秒,而不用 CDPNet 的穷举搜索需要 300 秒。

图片来源于原论文


三、数据集与评测基准

为评估唯一字幕生成,作者构建了两个新基准:

3.1 第一视角基准(Egocentric Benchmark)

基于 Ego4D 的 NLQ 训练集,抽取 30K 条重复次数 ≥10 次的叙述,每条随机采样 10 个片段(可跨视频),生成 300K 片段的训练集。评估集为 300 组 × 10 片段,来自 NLQ 验证集,固定不变。提示库从训练集叙述中选取频率最高的 10 个 N‑gram,并手工去除语义相似的条目。最终提示包括:"holding", "carrying", "looking at", "picks up", "walks", "opens" 等。

3.2 循环电影基准(Timeloop Movies Benchmark)

利用 Wikipedia 列出的时间循环电影(共 71 部),手工标注重复片段时间戳。要求每部电影至少 3 个重复时刻,且这些时刻视觉上几乎相同。最终得到 10 部电影、63 个片段,每组大小 3-10。由于数据稀缺,训练集使用 Condensed Movie Dataset(非循环电影)构造视觉相似度 >0.92 的 30K 组片段作为代理。

3.3 评测指标

采用标准检索指标:Text→Video R@K, Video→Text R@K, Avg R@1(两者平均值),以及更严格的 Cycle@1(要求 v_i 检索到 c_i 且 c_i 检索回 v_i,等价于 Eq.1 的唯一性条件)。图 5 清晰展示了这些指标的区别。

图片来源于原论文


四、实验结果与关键数据

4.1 第一视角基准 (LaViLa VCLM 作为基础字幕器)

T (秒) 方法 Text→Video R@1 Avg R@1 Cycle@1
+0s LaViLa VCLM 40% 34.3% 22.0%
+0s + CDP 55% (+15) 45.0% (+11) 26.0% (+4)
+5s LaViLa VCLM 42% 36.3% 23.0%
+5s + CDP 69% (+27) 57.0% (+21) 38.6% (+16)
+10s LaViLa VCLM 45% 40.5% 25.3%
+10s + CDP 77% (+32) 65.0% (+25) 47.1% (+22)
+30s LaViLa VCLM 47% 43.0% 27.2%
+30s + CDP 86% (+39) 76.0% (+33) 62.3% (+35)

T=+0s 表示仅使用当前 5 秒片段;T=+30s 表示可额外访问后续 30 秒内容(共 7 个片段)。CDP 在所有时间步和所有指标上均显著优于基线。

4.2 循环电影基准 (Video-LLaMA 作为基础字幕器)

T (秒) 方法 Text→Video R@1 Avg R@1 Cycle@1
0s Video-LLaMA 37% 35.0% 18.3%
0s + CDP 47% (+10) 42.0% (+7) 25.0% (+7)
2s Video-LLaMA 39% 36.5% 25.4%
2s + CDP 51% (+12) 48.0% (+12) 32.0% (+7)
4s Video-LLaMA 38% 36.5% 18.4%
4s + CDP 62% (+24) 53.0% (+17) 37.4% (+19)
10s Video-LLaMA 36% 35.5% 18.2%
10s + CDP 73% (+37) 63.0% (+28) 44.5% (+26)

循环电影中,随着时间的推移,故事线出现分歧,CDP 能捕获这些差异并生成独特字幕。最大改善为 Avg R@1 +25%,Cycle@1 +26.3%。

4.3 长视频案例研究

在 10 条平均 40.3 分钟的真实第一视角长视频上(每条约 483 个连续 5 秒片段),进行 text→video 检索。CDP(使用 T=+5s)将 R@1 从 12%(LaViLa VCLM)提升至 32%(+20%),R@3 从 20% 提升至 48%(+28%),R@5 从 26% 提升至 56%(+30%)。定性示例中,CDP 能区分"在洗手池前的两个片段"、"推手推车的两个片段(一个走向出口,一个绕仓库)"以及"使用钢笔的不同时刻"。

4.4 消融实验

  • 提示组合数 α:α=1 时 Avg R@1 为 47.6%;α=2 时提升至 56.3%;α=2 且增加时间到 +10s 后达到 66.8%。α=3 性能最佳,且性能高于 α=2 的增益随 T 增大更明显。

  • 提示贡献:与主动物品(holding, carrying, picks up, looks at)相关的提示被选择最多,且单独使用效果最好。

  • 余量阈值 λ:增大 λ 会使得被判定为"唯一"的片段减少,但 Cycle@1 提高,λ=0.1 时两者平衡良好。

  • CDPNet 精度:预测相似度与真实相似度之间误差均值为 0,标准差 0.11,大多数误差在 0.1 以内。

4.5 其他字幕模型验证

在 LaViLa 和 Video-LLaMA 之外,CDP 也提升了 VideoBLIP 模型在 egocentric 基准上的 Avg R@1(从 48.7% 到 52.4%)和 Cycle@1(从 37.5% 到 46.5%),表明方法具有模型无关性。

4.6 定性展示

图 8‑11 展示了丰富的定性结果。例如,egocentric 中三个"looks around the shelves"的片段,CDP 通过"the other man is talking"(clip1)、"looks at shopping list"(clip2)和"picks up"(clip3, 需向后 10s)加以区分。在《土拨鼠之日》中,三个"a man wakes up"片段,CDP 在 2s 时靠"lying down"、6s 时靠"window"特征、10s 时靠其他角色和地点实现唯一标识。

图片来源于原论文


五、总结与未来方向

CDP 首次提出了唯一视频字幕生成任务,并通过判别性提示(从固定提示库中选择)以及可选的时间扩展,为重复性视频片段生成可区分的描述。在两个新基准(第一视角日常视频、时间循环电影)上,CDP 显著提升了 text→video 和 video→text 检索性能,并提供了严格的 Cycle@1 指标来评估完整唯一性。该方法无需微调字幕模型,即插即用,计算开销小。

未来方向包括:学习提示而非使用固定库、跨整个数据集的唯一字幕生成、以及利用多个具有不同专长的字幕模型协同工作。代码和数据完全开源,可从项目网站获取。

相关推荐
IT_陈寒2 小时前
Vue这个坑我跳了两次,原来问题出在这
前端·人工智能·后端
新新技术迷2 小时前
Node给AI接口做SSE代理与鉴权
人工智能
redreamSo3 小时前
大模型是不是到顶了?瓶颈到底在哪
人工智能·openai
Oo9203 小时前
Tool Use 背后的技术逻辑
人工智能
姗姗来迟了3 小时前
Vue3封装AI流式对话组件踩坑实录
人工智能
码上天下4 小时前
用Pinia管理AI多会话状态
人工智能
用户054324329705 小时前
Next.js接大模型流式SSE实操踩坑
人工智能
Assby5 小时前
从 Function Calling 到 MCP:理解 Agent 工具调用的底层通信机制
人工智能·后端
小星AI5 小时前
Claude Code 从入门到精通,一步到位
人工智能
后端小肥肠5 小时前
Codex + Obsidian 做人生副本视频:输入主题文案,直通剪映草稿
人工智能·aigc·agent