技术栈

强化微调

温柔哥`
5 小时前
语言模型·自动驾驶·agent·工具调用·grpo·强化微调·tool call
AgentThink:一种在自动驾驶视觉语言模型中用于工具增强链式思维推理的统一框架AgentThink: A Unified Framework for Tool-Augmented Chain-of-Thought Reasoning in Vision-Language Models for Autonomous Driving 1 清华大学 2 麦吉尔大学 3 小米公司 4 威斯康星大学麦迪逊分校 arxiv’25’05
Catching Star
2 个月前
论文阅读·强化微调
【论文笔记】【强化微调】Vision-R1:首个针对多模态 LLM 制定的强化微调方法,以 7B 比肩 70B[2503.06749] Vision-R1: Incentivizing Reasoning Capability in Multimodal Large Language Models
Catching Star
2 个月前
论文阅读·强化微调
【论文笔记】【强化微调】TinyLLaVA-Video-R1:小参数模型也能视频推理[2504.09641] TinyLLaVA-Video-R1: Towards Smaller LMMs for Video Reasoning
温柔哥`
3 个月前
vad·var·视频异常检测·grpo·视频异常推理·推理数据集·强化微调
Vad-R1:通过从感知到认知的思维链进行视频异常推理Vad-R1: Towards Video Anomaly Reasoning via Perception-to-Cognition Chain-of-Thought ¹中山大学深圳校区;²哈尔滨工业大学(深圳);³香港理工大学 arxiv’25’05
我是有底线的