多模态

算法打盹中6 小时前
人工智能·计算机视觉·语言模型·自然语言处理·树莓派·多模态·jetson nano
基于树莓派与Jetson Nano集群的实验边缘设备上视觉语言模型(VLMs)的性能评估与实践探索2018年,TensorFlow Lite团队的Pete Warden曾提出:“机器学习的未来在于微型化”。如今,随着人工智能向高性能视觉强大的视觉语言模型(Vision-language models, VLMs)发展,对高性能计算资源的需求急剧增长。图形处理器(GPU)的需求达到历史峰值,引发了对长期可持续性的担忧。时至2025年,七年后的今天,一个关键问题浮现——我们是否已迈入这一微型化未来?本文通过定制的树莓派集群与Jetson Nano开发板,在边缘设备上对视觉语言模型展开测试。
陈敬雷-充电了么-CEO兼CTO3 天前
人工智能·python·gpt·语言模型·自然语言处理·chatgpt·多模态
具身智能多模态感知与场景理解:融合语言模型的多模态大模型注:此文章内容均节选自充电了么创始人,CEO兼CTO陈敬雷老师的新书《GPT多模态大模型与AI Agent智能体》(跟我一起学人工智能)【陈敬雷编著】【清华大学出版社】
全息数据3 天前
深度学习·stable diffusion·多模态·ddpm
DDPM代码讲解【详细!!!】UNet网络的总体框架如下,右边是UNet网络的整体框架,左边是residual网络和attention网络,
大数据AI人工智能培训专家培训讲师叶梓11 天前
人工智能·音视频·多模态·大模型微调·人工智能讲师·人工智能培训·微调大模型
腾讯混元开源视频拟音模型,破解 AI 视频 “无声” 难题想要掌握如何将大模型的力量发挥到极致吗?叶梓老师带您深入了解 Llama Factory —— 一款革命性的大模型微调工具。
泡泡茶壶_ovo17 天前
人工智能·深度学习·计算机视觉·语言模型·prompt·多模态·imagecaptioning
RORPCAP: retrieval-based objects and relations prompt for image captioning研究方向:Image Captioning本文提出了一种基于检索的对象与关系提示用于图片标题生成(RORPCap),以最短的训练时间达到了与基于检测器与图卷积网络(GCN)的模型相当的性能指标。
一只齐刘海的猫18 天前
人工智能·多模态
部署Qwen2.5-VL-7B-Instruct-GPTQ-Int3
Struart_R18 天前
人工智能·深度学习·计算机视觉·3d·大语言模型·多模态
LLaVA-3D,Video-3D LLM,VG-LLM,SPAR论文解读目录一、LLaVA-3D1、概述2、方法3、训练过程4、实验二、Video-3D LLM1、概述2、方法
顾道长生'19 天前
人工智能·计算机视觉·音视频·多模态
(Arxiv-2025)SkyReels-A2:在视频扩散变换器中组合任意内容paper是昆仑天工发布在Arxiv 2025的工作paper title:SkyReels-A2: Compose Anything in Video Diffusion Transformers
胡耀超23 天前
python·深度学习·ffmpeg·音视频·语音识别·多模态·asr
DataOceanAI Dolphin(ffmpeg音频转化教程) 多语言(中国方言)语音识别系统部署与应用指南官方地址:DataoceanAI-DolphinDataOceanAI Dolphin 是由清华大学与DataOceanAI联合开发的多语言自动语音识别(ASR, Automatic Speech Recognition)系统。该系统专门针对东方语言设计,支持40种亚洲语言和22种中文方言,基于超过21万小时的训练数据构建。系统采用Transformer架构,提供了从140M到1.67B参数规模的多个模型版本。
知来者逆25 天前
目标检测·计算机视觉·目标跟踪·语言模型·多模态·vlms·qwen2.5-vl
VLMs开发——基于Qwen2.5-VL 实现视觉语言模型在目标检测中的层级结构与实现方法目标检测作为计算机视觉领域的核心任务,传统方法依赖于 YOLO 等视觉模型对预定义类别进行位置预测。然而,此类方法受限于预训练类别体系,难以实现灵活的视觉交互。视觉语言模型(Vision-Language Models, VLMs)的问世打破了这一局限,其具备跨模态理解能力,能够实现图像与自然语言的双向交互,为目标检测领域带来范式革新。本文系统探讨基于 VLM 的目标检测技术,重点研究 Qwen2.5-VL 模型的技术特性与应用方法。
MUTA️1 个月前
人工智能·笔记·语言模型·多模态
《CogAgent: A Visual Language Model for GUI Agents》论文精读笔记论文链接:arxiv.org/pdf/2312.08914人们在通过图形用户界面(GUIs),例如计算机或智能手机屏幕,与数字设备交互时,花费了大量时间。尽管大型语言模型(LLMs),如ChatGPT,可以在写邮件等任务中为人们提供帮助,但它们在理解和操作图形用户界面方面存在困难,从而限制了其在提高自动化水平方面的潜力。
计算机sci论文精选1 个月前
人工智能·深度学习·语言模型·多模态·acl·机器翻译模型
ACL 2024 大模型方向优秀论文:洞察NLP前沿关键突破关注gongzhonghao【计算机sci论文精选】近年来,以Transformer架构为核心的大语言模型重塑了自然语言处理领域的技术范式。当前ACL相关研究呈现多维度深化态势,从开源社区推动轻量化架构与低成本训练技术革新,到学术界探索检索增强等机制突破长尾知识覆盖局限,再到医疗、海洋等垂直领域专用模型开发成为新热点。
MUTA️1 个月前
人工智能·深度学习·语言模型·多模态
视觉语言模型在视觉任务上的研究综述论文链接:arxiv.org/pdf/2504.09480摘要——视觉-语言模型(VLM)已在开放词汇(OV)目标检测与分割任务中得到广泛应用。尽管它们在与开放词汇相关的任务中展现出良好的性能,但其在传统视觉任务中的有效性迄今尚未得到系统评估。
威化饼的一隅1 个月前
大模型·agent·多模态·智能体
【多模态】天池AFAC赛道四-智能体赋能的金融多模态报告自动化生成part2-报告输出本任务需要参赛团队研发一个能够自动撰写三大类季度/年度跟踪型金融研报(宏观经济/策略研报、行业/子行业研报、公司/个股研报)的智能Agent系统,需实现生成研报质量及构建使用技术两部分的目标。
威化饼的一隅1 个月前
大模型·agent·多模态·智能体
【多模态】天池AFAC赛道四-智能体赋能的金融多模态报告自动化生成part1-数据获取本任务需要参赛团队研发一个能够自动撰写三大类季度/年度跟踪型金融研报(宏观经济/策略研报、行业/子行业研报、公司/个股研报)的智能Agent系统,需实现生成研报质量及构建使用技术两部分的目标。
静心问道1 个月前
人工智能·多模态·ai技术应用
Idefics3:构建和更好地理解视觉-语言模型:洞察与未来方向温馨提示: 本篇文章已同步至"AI专题精讲" Idefics3:构建和更好地理解视觉-语言模型:洞察与未来方向
静心问道1 个月前
人工智能·多模态·ai技术应用
InstructBLIP:通过指令微调迈向通用视觉-语言模型温馨提示: 本篇文章已同步至"AI专题精讲" InstructBLIP:通过指令微调迈向通用视觉-语言模型
静心问道2 个月前
人工智能·语言模型·多模态
KOSMOS-2: 将多模态大型语言模型与世界对接温馨提示: 本篇文章已同步至"AI专题精讲" KOSMOS-2: 将多模态大型语言模型与世界对接我们介绍了 KOSMOS-2,一种多模态大型语言模型(MLLM),赋予了模型感知物体描述(例如,边界框)并将文本与视觉世界对接的新能力。具体而言,我们将引用表达式表示为 Markdown 中的链接形式,即 “文本片段”,其中物体描述是位置标记的序列。通过与多模态语料库的结合,我们构建了大规模的图像-文本对(称为 GRIT)数据,用于训练模型。除了现有的 MLLM 能力(例如,感知一般模态、遵循指令和执行上下文学
静心问道2 个月前
人工智能·深度学习·transformer·多模态
TrOCR: 基于Transformer的光学字符识别方法,使用预训练模型温馨提示: 本篇文章已同步至"AI专题精讲" TrOCR: 基于Transformer的光学字符识别方法,使用预训练模型
MUTA️2 个月前
人工智能·深度学习·微调·prompt·多模态
Clip微调系列:《MaPLe: Multi-modal Prompt Learning》论文链接:arxiv.org/pdf/2210.03117参考链接:(28 封私信) CVPR2023 | MaPLe: Multi-modal Prompt Learning - 知乎