视觉语言大模型

小小帅AIGC1 个月前
人工智能·语言模型·自然语言处理·llm·大语言模型·论文推送·视觉语言大模型
AI推介-大语言模型LLMs论文速览(arXiv方向):2024.05.01-2024.05.05标题:子目标蒸馏:改进小型语言代理的方法author:Maryam Hashemzadeh, Elias Stengel-Eskin, Sarath Chandar, Marc-Alexandre Cote
小小帅AIGC1 个月前
人工智能·计算机视觉·语言模型·自然语言处理·多模态大模型·vlm·视觉语言大模型
AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2024.05.20-2024.05.25标题:LM4LV:用于低级视觉任务的冻结大型语言模型author:Boyang Zheng, Jinjin Gu, Shijun Li, Chao Dong
曾小蛙3 个月前
aigc·多模态·视觉语言大模型·qwen-vl-chat
【中文视觉语言模型+本地部署 】23.08 阿里Qwen-VL:能对图片理解、定位物体、读取文字的视觉语言模型 (推理最低12G显存+)项目主页:https://github.com/QwenLM/Qwen-VL 通义前问网页在线使用——(文本问答,图片理解,文档解析):https://tongyi.aliyun.com/qianwen/ 论文v3. : 一个全能的视觉语言模型 23.10 Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond
小小帅AIGC4 个月前
人工智能·计算机视觉·语言模型·自然语言处理·llm·vlm·视觉语言大模型
AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2024.01.15-2024.01.20标题:RAD-DINO:探索文本监督之外的可扩展医学图像编码器author:Fernando Pérez-García, Harshita Sharma, Sam Bond-Taylor, Kenza Bouzid, Valentina Salvatelli, Maximilian Ilse, Shruthi Bannur, Daniel C. Castro, Anton Schwaighofer, Matthew P. Lungren, Maria Wetscherek, Noel Codella, S