强化微调

AgentThink：一种在自动驾驶视觉语言模型中用于工具增强链式思维推理的统一框架AgentThink: A Unified Framework for Tool-Augmented Chain-of-Thought Reasoning in Vision-Language Models for Autonomous Driving 1 清华大学 2 麦吉尔大学 3 小米公司 4 威斯康星大学麦迪逊分校 arxiv’25’05

【论文笔记】【强化微调】Vision-R1：首个针对多模态 LLM 制定的强化微调方法，以 7B 比肩 70B[2503.06749] Vision-R1: Incentivizing Reasoning Capability in Multimodal Large Language Models

【论文笔记】【强化微调】TinyLLaVA-Video-R1：小参数模型也能视频推理[2504.09641] TinyLLaVA-Video-R1: Towards Smaller LMMs for Video Reasoning

Vad-R1：通过从感知到认知的思维链进行视频异常推理Vad-R1: Towards Video Anomaly Reasoning via Perception-to-Cognition Chain-of-Thought ¹中山大学深圳校区；²哈尔滨工业大学（深圳）；³香港理工大学 arxiv’25’05

我是有底线的