多模态

余俊晖17 小时前
人工智能·大模型·多模态·qwen
Qwen-VL系列多模态大模型技术演进-模型架构、训练方法、数据细节记录一下Qwen-VL系列多模态大模型技术演进-模型架构、训练方法、数据细节,仅供参考。系列模型的应用场景:
背水4 天前
人工智能·学习·多模态·tts
Enhancing Zero-shot Text-to-Speech Synthesis with Human Feedback论文学习借助人类反馈增强零样本文本到语音合成In recent years, text-to-speech (TTS) technology has witnessed impressive advancements, particularly with large-scale training datasets, showcasing human-level speech quality and impressive zero-shot capabilities on unseen speakers. Howe
Nicolas8935 天前
语言模型·大模型·多模态·视觉理解·cogvlm·visionllm·视觉语言预训练模型
【大模型理论篇】CogVLM:多模态预训练语言模型前两天我们在《Skywork R1V: Pioneering Multimodal Reasoning with Chain-of-Thought》中介绍了将ViT与推理模型结合构造多模态推理模型的案例,其中提到了VLM的应用。追溯起来就是两篇前期工作:Vision LLM以及CogVLM。
猫先生Mr.Mao7 天前
人工智能·大模型·aigc·agi·多模态·行业洞察
2025年2月AGI技术月评|重构创作边界:从视频生成革命到多模态生态的全面爆发〔更多精彩AI内容,尽在 「魔方AI空间」 ,引领AIGC科技时代〕本文作者:猫先生2025年2月,AIGC开源领域迎来多维度突破:视频生成模型进一步降低创作门槛,多模态框架向通用性迈进,艺术创作工具向轻量化与高保真演化,而模型量化技术则让消费级设备成为可能。开源社区通过算法创新、数据策略优化和工程化实践,持续推动技术从实验室走向规模化应用。
youcans_8 天前
人工智能·大语言模型·多模态·技术报告·gemma
【技术报告】谷歌开源多模态大模型 Gemma-32025年 3月12日,谷歌推出最新多模态大模型 Gemma-3。这是一组轻量级、最先进的开源模型,是迄今为止最先进、便携且负责任开发的开源模型,可以直接在手机、PC、工作站上快速运行。
AI生成未来10 天前
多模态·图像生成·综述·多模态大模型·视频生成
通向AGI的未来之路!首篇2D/视频/3D/4D统一生成框架全景综述(港科大&中山等)文章链接: https://arxiv.org/pdf/2503.04641理解并复现现实世界是人工通用智能(AGI)研究中的一个关键挑战。为实现这一目标,许多现有方法(例如世界模型)旨在捕捉支配物理世界的基本原理,从而实现更精确的模拟和有意义的交互。然而,当前的方法通常将不同模态(包括2D(图像)、视频、3D和4D表示)视为独立领域,忽略了它们之间的相互依赖性。此外,这些方法通常专注于现实的孤立维度,而没有系统地整合它们之间的联系。在本综述中,我们提出了一种多模态生成模型的统一综述,探讨了现实世界模拟中
余俊晖10 天前
llm·多模态·deepseek
DeepSeek-R1思路训练多模态大模型-Vision-R1开源及实现方法思路刚开始琢磨使用DeepSeek-R1风格训练多模态R1模型,就看到这个工作,本文一起看看,供参考。 先提出问题,仅靠 RL 是否足以激励 MLLM 的推理能力?
余俊晖17 天前
llm·多模态
Phi-4-multimodal:图、文、音频统一的多模态大模型架构、训练方法、数据细节Phi-4-Multimodal 是一种参数高效的多模态模型,通过 LoRA 适配器和模式特定路由器实现文本、视觉和语音/音频的无缝集成。训练过程包括多阶段优化,确保在不同模式和任务上的性能,数据来源多样,覆盖高质量网络和合成数据。它的设计体现了小型语言模型在多模态任务上的潜力
十有久诚25 天前
人工智能·提示学习·多模态·视觉语言模型
Modular Prompt Learning Improves_Vision-Language Models浅层连续提示方法将提示插入到第一个Transformer层的输入中,这些提示参与到后续所有Transformer层的上下文化过程(即自注意力机制[16])中。而深层提示方法则持续用新插入的提示替换原有的连续提示。一个自然的问题是:移除插入的提示是否会丢失其中包含的信息?
产品媛Gloria Deng1 个月前
人工智能·llm·生成式ai·agi·多模态
AI多模态梳理与应用思考|从单文本到多视觉的生成式AI的AGI关键路径摘要: 生成式AI正从“文本独舞”迈向“多感官交响”,多模态将成为通向AGI的核心路径。更深度的多模态模型有望像ChatGPT颠覆文字交互一样,重塑物理世界的智能化体验。
政安晨1 个月前
人工智能·大模型·多模态·deepseek·janus-pro-7b
政安晨【零基础玩转各类开源AI项目】DeepSeek 多模态大模型Janus-Pro-7B,本地部署!支持图像识别和图像生成政安晨的个人主页:政安晨欢迎 👍点赞✍评论⭐收藏希望政安晨的博客能够对您有所裨益,如有不足之处,欢迎在评论区提出指正!
万里守约1 个月前
论文阅读·图像分割·多模态·语义分割·实例分割·图像大模型
【论文阅读】SAM-CP:将SAM与组合提示结合起来的多功能分割近年来,视觉基础模型的快速发展推动了多模态理解的进步,尤其是在图像分割任务中。例如,Segment Anything模型(SAM)在图像Mask分割上表现出色,但在语义及实例分割方面仍存在局限。本文提出的SAM-CP,通过引入可组合的提示机制,显著增强了模型在复杂场景下的语义理解能力。这一方法不仅提高了分割任务的灵活性和准确性,也为视觉模型在开放词汇和实例识别中的应用提供了新的思路,使其在多种视觉任务中具有更广泛的适用性。
AI生成未来1 个月前
计算机视觉·语言模型·多模态·mllms
多模态大语言模型(MLLMs)如何重塑和变革计算机视觉?本文介绍了多模态大型语言模型(MLLM)的定义、使用挑战性提示的应用场景,以及正在重塑计算机视觉的顶级模型。
Ai多利1 个月前
人工智能·神经网络·cnn·多模态
大模型被偷家?CNN结合多模态!卷积神经网络是一种特殊类型的神经网络,其主要结构包括卷积层、池化层、全连接层和输出层。卷积层通过卷积操作学习图像的特征,池化层通过下采样操作减少参数数量,全连接层和输出层通过分类或回归来完成任务。
lly_csdn1232 个月前
python·深度学习·ai·图像分类·多模态·字幕生成·属性识别
【Image Captioning】DynReferDynRefer是由中国科学院大学于2024年提出的用于1种用于区域级多模态任务的模型。DynRefer 通过模拟人类视觉认知过程,显著提升了区域级多模态识别能力。通过引入人眼的动态分辨率机制, 能够以同时完成区域识别、区域属性检测和区域字幕生成任务。
HyperAI超神经2 个月前
人工智能·深度学习·llm·html·数据集·多模态·gpt-4o
超越 GPT-4o!从 HTML 到 Markdown,一键整理复杂网页;AI 对话不再冰冷,大模型对话微调数据集让响应更流畅面对信息冗余的网页内容,如何快速提取全面的核心信息?Reader-LM 模型为你提供了专业的解决方案。Reader-LM 能高效处理高达 256K 字节的超长内容,精准将 HTML 转换为清晰的 Markdown 格式。它的表现甚至超过了 GPT-4o 等大型语言模型,其轻量化设计也使它更适合资源受限的场景。
大模型之路2 个月前
人工智能·语言模型·大模型·多模态·minicpm-o 2.6
MiniCPM-o 2.6:开源大型语言模型在多模态任务上超越GPT-4o和Claude 3.5MiniCPM-o 2.6是一款开源的大型语言模型(LLM),其在多模态任务上的表现令人瞩目,成功超越了GPT-4o和Claude 3.5等业界知名模型。以下是对MiniCPM-o 2.6的详细介绍:
youcans_3 个月前
人工智能·yolo·目标检测·计算机视觉·多模态
【YOLO 项目实战】(12)红外/可见光多模态目标检测欢迎关注『youcans动手学模型』系列 本专栏内容和资源同步到 GitHub/youcans 【YOLO 项目实战】(10)YOLO8 环境配置与推理检测 【YOLO 项目实战】(11)YOLO8 数据集与模型训练 【YOLO 项目实战】(12)红外/可见光多模态目标检测
好评笔记3 个月前
人工智能·深度学习·计算机视觉·aigc·transformer·多模态·coca
多模态论文笔记——Coca大家好,这里是好评笔记,公主号:Goodnote,专栏文章私信限时Free。本文详细介绍多模态模型Coca,在DALL·E 3中使用其作为captioner基准模型的原因和优势。
小嗷犬3 个月前
论文阅读·人工智能·机器翻译·多模态·手语翻译·手语识别
【论文笔记】Visual Alignment Pre-training for Sign Language Translation🍎个人主页:小嗷犬的个人主页 🍊个人网站:小嗷犬的技术小站 🥭个人信条:为天地立心,为生民立命,为往圣继绝学,为万世开太平。