大型视觉语言模型下的异常链思维

深度强化学习 / 强化学习培训 / 数字孪生培训 / 大模型培训 / 智能体培训 / 具身智能培训

基于大型视觉语言模型的自动化视频监控,因其固有的常态偏向性而受限,常常无法有效识别犯罪行为。尽管思维链推理策略在语言任务中展现出显著改进性能的潜力,但其推理过程中缺乏归纳性异常偏差,进一步将模型导向正常化解读。为此,我们提出异常思维链(Chain-of-Anomaly-Thoughts,简称CoAT)------一种多智能体推理框架,该框架通过最终聚焦异常的分类层,在推理过程中引入归纳性犯罪偏差。我们的方法显著提升了异常检测性能,在低分辨率监控视频中将F1分数提高了11.8个百分点;在高分辨率视频的异常分类任务中,性能也提升了3.78个百分点。

大型视觉语言模型在自动化视频监控中存在固有的"常态偏向",常导致犯罪行为漏检。为解决此问题,研究者提出了异常链思维(Chain-of-Anomaly-Thoughts, CoAT) 框架。该方法通过引入多智能体推理架构,在思维链中显式嵌入归纳性犯罪偏差,并设置异常导向的最终分类层,从而主动引导模型识别非常规线索。实验表明,CoAT显著提升了模型在复杂监控场景下的感知能力:在低分辨率视频中异常检测F1分数提升11.8%,高分辨率视频中异常分类精度提升3.78%。该研究为突破大模型在安防领域的认知局限提供了可解释的推理路径。

原文链接:https://arxiv.org/html/2512.20417v1

相关推荐
生成论实验室2 小时前
即事成象:频率生成论——应对AI范式转型的生成存在论及其中国经典基础
人工智能·科技·神经网络·信息与通信·几何学
阿正的梦工坊2 小时前
ARE:Meta 发布的代理研究平台,如何构建动态环境并实现大规模扩展
人工智能·深度学习·机器学习·大模型
weisian1512 小时前
入门篇--知名企业-8-Amazon:从在线书商到万物帝国——一部重塑现代商业与生活的传奇
人工智能·生活
不荒Huang2 小时前
task3—大语言模型基础
人工智能·语言模型·自然语言处理
A10086121212 小时前
图论基础与谱聚类算法
人工智能·机器学习·聚类
IT·陈寒2 小时前
2025年AI开发工具生态总结:从爆款模型到智能IDE的蜕变
ide·人工智能
m0_689618282 小时前
纳米工程重构生物材料:从实验室到临床的革命性突破
人工智能·笔记·学习·计算机视觉
程序员佳佳2 小时前
【硬核实测】GPT-5.2-Pro 对决 Gemini-3-Pro (Banana Pro):开发者如何低成本接入下一代 AI 模型?附 Python 源码
人工智能·python·gpt·chatgpt·ai作画·midjourney·ai编程
WitsMakeMen2 小时前
训练时开启 KV 缓存会和is_causal=False 冲突
人工智能·缓存·语言模型·自然语言处理·llm·transformer