大型视觉语言模型下的异常链思维

深度强化学习 / 强化学习培训 / 数字孪生培训 / 大模型培训 / 智能体培训 / 具身智能培训

基于大型视觉语言模型的自动化视频监控,因其固有的常态偏向性而受限,常常无法有效识别犯罪行为。尽管思维链推理策略在语言任务中展现出显著改进性能的潜力,但其推理过程中缺乏归纳性异常偏差,进一步将模型导向正常化解读。为此,我们提出异常思维链(Chain-of-Anomaly-Thoughts,简称CoAT)------一种多智能体推理框架,该框架通过最终聚焦异常的分类层,在推理过程中引入归纳性犯罪偏差。我们的方法显著提升了异常检测性能,在低分辨率监控视频中将F1分数提高了11.8个百分点;在高分辨率视频的异常分类任务中,性能也提升了3.78个百分点。

大型视觉语言模型在自动化视频监控中存在固有的"常态偏向",常导致犯罪行为漏检。为解决此问题,研究者提出了异常链思维(Chain-of-Anomaly-Thoughts, CoAT) 框架。该方法通过引入多智能体推理架构,在思维链中显式嵌入归纳性犯罪偏差,并设置异常导向的最终分类层,从而主动引导模型识别非常规线索。实验表明,CoAT显著提升了模型在复杂监控场景下的感知能力:在低分辨率视频中异常检测F1分数提升11.8%,高分辨率视频中异常分类精度提升3.78%。该研究为突破大模型在安防领域的认知局限提供了可解释的推理路径。

原文链接:https://arxiv.org/html/2512.20417v1

相关推荐
LaughingZhu几秒前
Product Hunt 每日热榜 | 2026-03-22
大数据·数据库·人工智能·经验分享·搜索引擎
醉颜凉3 分钟前
Seal^_^【送书活动第8期】——《ChatGLM3大模型本地化部署、应用开发与微调》
人工智能·职场和发展·送书活动·chatglm3大模型
进击的野人5 分钟前
从AI“说人话”到“说结构话”:Spring AI结构化输出实战解析
人工智能·spring·ai编程
jay神6 分钟前
基于深度学习的车辆识别收费管理系统
人工智能·深度学习·yolo·目标检测·毕业设计
进击的雷神9 分钟前
Trae AI IDE 完全指南:从入门到精通
大数据·ide·人工智能·trae
汀丶人工智能12 分钟前
基于 Milvus 构建企业级 RAG 问答系统:从原理到实践-CSDN博客
人工智能
工边页字12 分钟前
为什么 RAG系统里,Embedding成本往往远低于 LLM成本,但很多公司仍然疯狂优化 Embedding?
前端·人工智能·后端
宇擎智脑科技13 分钟前
A2A 协议规范深度剖析:三层架构、数据模型、操作语义与协议绑定
人工智能·a2a
Mintopia16 分钟前
如何降低 Prompt 对 AI 理解的干扰
人工智能
七夜zippoe18 分钟前
OpenClaw 会话管理:单聊、群聊、多模型
大数据·人工智能·fastapi·token·openclaw