大型视觉语言模型下的异常链思维

深度强化学习 / 强化学习培训 / 数字孪生培训 / 大模型培训 / 智能体培训 / 具身智能培训

基于大型视觉语言模型的自动化视频监控,因其固有的常态偏向性而受限,常常无法有效识别犯罪行为。尽管思维链推理策略在语言任务中展现出显著改进性能的潜力,但其推理过程中缺乏归纳性异常偏差,进一步将模型导向正常化解读。为此,我们提出异常思维链(Chain-of-Anomaly-Thoughts,简称CoAT)------一种多智能体推理框架,该框架通过最终聚焦异常的分类层,在推理过程中引入归纳性犯罪偏差。我们的方法显著提升了异常检测性能,在低分辨率监控视频中将F1分数提高了11.8个百分点;在高分辨率视频的异常分类任务中,性能也提升了3.78个百分点。

大型视觉语言模型在自动化视频监控中存在固有的"常态偏向",常导致犯罪行为漏检。为解决此问题,研究者提出了异常链思维(Chain-of-Anomaly-Thoughts, CoAT) 框架。该方法通过引入多智能体推理架构,在思维链中显式嵌入归纳性犯罪偏差,并设置异常导向的最终分类层,从而主动引导模型识别非常规线索。实验表明,CoAT显著提升了模型在复杂监控场景下的感知能力:在低分辨率视频中异常检测F1分数提升11.8%,高分辨率视频中异常分类精度提升3.78%。该研究为突破大模型在安防领域的认知局限提供了可解释的推理路径。

原文链接:https://arxiv.org/html/2512.20417v1

相关推荐
小笼包包仔6 小时前
OpenClaw 多Agent软件开发最佳实践指南
人工智能
smallyoung7 小时前
AgenticRAG:智能体驱动的检索增强生成
人工智能
_skyming_7 小时前
OpenCode 如何做到结果不做自动质量评估,为什么结果还不错?
人工智能
南山安7 小时前
手写 Cursor 核心原理:从 Node.js 进程到智能 Agent
人工智能·agent·设计
掘金安东尼8 小时前
如何为 AI 编码代理配置 Next.js 项目
人工智能
aircrushin8 小时前
轻量化大模型架构演进
人工智能·架构
文心快码BaiduComate9 小时前
百度云与光本位签署战略合作:用AI Agent 重构芯片研发流程
前端·人工智能·架构
风象南9 小时前
Claude Code这个隐藏技能,让我告别PPT焦虑
人工智能·后端
Mintopia10 小时前
OpenClaw 对软件行业产生的影响
人工智能
陈广亮11 小时前
构建具有长期记忆的 AI Agent:从设计模式到生产实践
人工智能