大型视觉语言模型下的异常链思维

renhongxia12025-12-30 9:18

深度强化学习 / 强化学习培训 / 数字孪生培训 / 大模型培训 / 智能体培训 / 具身智能培训

基于大型视觉语言模型的自动化视频监控，因其固有的常态偏向性而受限，常常无法有效识别犯罪行为。尽管思维链推理策略在语言任务中展现出显著改进性能的潜力，但其推理过程中缺乏归纳性异常偏差，进一步将模型导向正常化解读。为此，我们提出异常思维链（Chain-of-Anomaly-Thoughts，简称CoAT）------一种多智能体推理框架，该框架通过最终聚焦异常的分类层，在推理过程中引入归纳性犯罪偏差。我们的方法显著提升了异常检测性能，在低分辨率监控视频中将F1分数提高了11.8个百分点；在高分辨率视频的异常分类任务中，性能也提升了3.78个百分点。

大型视觉语言模型在自动化视频监控中存在固有的"常态偏向"，常导致犯罪行为漏检。为解决此问题，研究者提出了异常链思维（Chain-of-Anomaly-Thoughts, CoAT） 框架。该方法通过引入多智能体推理架构，在思维链中显式嵌入归纳性犯罪偏差，并设置异常导向的最终分类层，从而主动引导模型识别非常规线索。实验表明，CoAT显著提升了模型在复杂监控场景下的感知能力：在低分辨率视频中异常检测F1分数提升11.8%，高分辨率视频中异常分类精度提升3.78%。该研究为突破大模型在安防领域的认知局限提供了可解释的推理路径。

原文链接：https://arxiv.org/html/2512.20417v1