视觉语言大模型

机器白学1 个月前
ocr·transformer·多模态·视觉语言大模型
从零开始使用GOT-OCR2.0——多模态通用型OCR(非常具有潜力的开源OCR项目):项目环境安装配置 + 测试使用在之前精读了这个多模态的OCR项目论文,理解了其基本的模型架构,论文精读地址:【论文精读】GOT-OCR2.0源码论文——打破传统OCR流程的多模态视觉-语言大模型架构:预训练VitDet 视觉模型+ 阿里通义千问Qwen语言模型-CSDN博客
v_JULY_v3 个月前
机器人·具身智能·视觉语言大模型·rekep·关键点约束
ReKep——李飞飞团队提出的新一代机器人操作方法:基于视觉语言模型和关键点约束由于工厂、车厂的任务需求场景非常明确,加之自今年年初以来,我司在机器人这个方向的持续大力度投入(包括南京、长沙两地机器人开发团队的先后组建),使得近期我司七月接到了不少来自车厂/工厂的订单,比如柔性上料、物料分拣、RL仿真平台搭建等
小小帅AIGC7 个月前
人工智能·语言模型·自然语言处理·llm·大语言模型·论文推送·视觉语言大模型
AI推介-大语言模型LLMs论文速览(arXiv方向):2024.05.01-2024.05.05标题:子目标蒸馏:改进小型语言代理的方法author:Maryam Hashemzadeh, Elias Stengel-Eskin, Sarath Chandar, Marc-Alexandre Cote
小小帅AIGC7 个月前
人工智能·计算机视觉·语言模型·自然语言处理·多模态大模型·vlm·视觉语言大模型
AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2024.05.20-2024.05.25标题:LM4LV:用于低级视觉任务的冻结大型语言模型author:Boyang Zheng, Jinjin Gu, Shijun Li, Chao Dong
曾小蛙9 个月前
aigc·多模态·视觉语言大模型·qwen-vl-chat
【中文视觉语言模型+本地部署 】23.08 阿里Qwen-VL:能对图片理解、定位物体、读取文字的视觉语言模型 (推理最低12G显存+)项目主页:https://github.com/QwenLM/Qwen-VL 通义前问网页在线使用——(文本问答,图片理解,文档解析):https://tongyi.aliyun.com/qianwen/ 论文v3. : 一个全能的视觉语言模型 23.10 Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond
小小帅AIGC10 个月前
人工智能·计算机视觉·语言模型·自然语言处理·llm·vlm·视觉语言大模型
AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2024.01.15-2024.01.20标题:RAD-DINO:探索文本监督之外的可扩展医学图像编码器author:Fernando Pérez-García, Harshita Sharma, Sam Bond-Taylor, Kenza Bouzid, Valentina Salvatelli, Maximilian Ilse, Shruthi Bannur, Daniel C. Castro, Anton Schwaighofer, Matthew P. Lungren, Maria Wetscherek, Noel Codella, S