TANDEM：多模态仇恨言论的时间感知神经检测

社交媒体平台日益被长篇幅多模态内容主导，有害信息常通过音频、视觉与文本线索的复杂交织构建。尽管自动化系统能以高精度识别仇恨言论，但其"黑箱"特性往往无法提供人类参与审核所需的细粒度、可解释证据------如精确时间戳和攻击目标身份。

本研究提出TANDEM框架，将视听仇恨检测从二元分类任务转化为结构化推理问题。该框架采用创新的协同强化学习策略，通过视觉-语言与音频-语言模型在自约束跨模态语境中相互优化，实现对长时序内容的稳定推理，无需密集帧级标注。

在三个基准数据集上的实验表明，TANDEM显著超越零样本与上下文增强基线，在HateMM数据集的目标识别任务中达到0.73 F1值（较前沿方法提升约30%），同时保持精准时间定位。

我们发现，虽然二元检测稳健，但在多分类场景中区分冒犯性与仇恨内容仍具挑战，这源于固有的标签模糊性与数据集不平衡。总体而言，本研究表明即使面对复杂多模态场景，结构化可解释的对齐仍可实现，为下一代透明、可操作的在线安全审核工具提供了蓝图。

我们提出了TANDEM------一个用于结构化多模态仇恨理解的协同强化学习框架，它联合优化视觉-语言与音频-语言模型。通过将监督微调与自约束上下文轮次、奖励引导的策略优化相结合，TANDEM在仇恨分类、时间定位和目标识别任务上实现了一致性提升。在HateMM、MultiHateClip和ImpliHateVid数据集上的大量实验表明，尽管强大的零样本和上下文增强基线在粗粒度分类上表现优异，但在生成具有时间定位和目标感知的预测方面仍存在局限。相比之下，TANDEM能够产生更稳健且可解释的结构化输出，缩小了不同数据集之间的性能差距，并在HateMM数据集上实现了目标识别任务0.73的F1分数。

我们的消融研究揭示了三个关键发现。首先，监督微调提供了必要的结构先验，但对于学习细粒度时间定位仍不充分。其次，强化学习仅在受到结构化跨模态上下文（如SCCR所提供的）约束时才有效。第三，协同优化对于防止模态漂移和确保一致的跨模态对齐至关重要。这些发现共同验证了TANDEM是一个统一框架，而非独立组件的简单集合。

未来工作仍有多个方向值得探索。首先，用令牌标识符（令牌输入-令牌输出）替代基于字符串的输入输出，有望显著提升强化学习的稳定性，尤其对于视觉-语言和音频-语言模型而言。其次，将跨模态上下文扩展至单个视频片段之外，并利用更大的LoRA参数预算，可能在更高计算资源的支持下进一步增强长时序推理能力。第三，直接通过强化学习对全模态模型进行微调仍是一个开放挑战，这需要改进Hugging Face库的支持并解决当前的技术瓶颈。最后，提升数据集质量------特别是通过厘清冒犯性与仇恨性标签之间的固有模糊性，并增加少数类别的覆盖度------对于减少偏见、提升多类别仇恨理解的鲁棒性至关重要。