【Vid llm】E-VAds: An E-commerce Short Videos Understanding Benchmark

note

note
[一、E-VAds: An E-commerce Short Videos Understanding Benchmark for MLLMs](#一、E-VAds: An E-commerce Short Videos Understanding Benchmark for MLLMs)
Reference

E-VAds: An E-commerce Short Videos Understanding Benchmark for MLLMs

电商视频现有MLLM提出了三大现实挑战：

● 极高的多模态信息密度：模型必须在极短时间内追踪快速的视觉切换，并将密集的语音和字幕与视觉证据进行精准对齐。

● 评估基准的缺失：目前业内尚无专门针对大规模、转化导向型电商短视频的系统性评测标准。

● 开放式的商业推理：营销说服逻辑、消费者心理洞察等问题本质上是开放式且高度意图导向的。这种主观性使得监督信号难以定义，导致模型在学习时的奖励信号极其稀疏。

提出了业内首个电商短视频理解基准 E-VAds Benchmark，并同步开源了多模态信息密度评估框架、数据构建Pipeline以及 E-VAds-R1 推理模型

训练策略的消融实验，表明：

● SFT 仅完成浅层对齐，高阶推理强依赖 RL：对比不同的 SFT 策略（直接输出答案 vs 思维链后输出），表现差异微乎其微。这表明 SFT 阶段主要的作用是"格式对齐"和"基础领域知识注入"，而解决复杂电商逻辑推理的核心能力绝大部分是在 RL 阶段建立的。

● 多粒度奖励（MG-GRPO）有效克服奖励稀疏：单一的严格奖励（Strict）有严重稀疏的监督信号，阻碍模型探索；而单一的宽松奖励（Relaxed）虽能平滑引导，但无法让模型变得更精进。实验证明，MG-GRPO 将多粒度融合（G）后，能实现最佳的性能突破

● 答案权重的分配：在综合计算奖励时，赋予"最终答案（Answer）"更大的权重，能有效防止大模型产生"推理过程看似华丽，但核心结论站不住脚"的幻觉现象。

$1$ E-VAds: An E-commerce Short Videos Understanding Benchmark for MLLMs