多模态

寻丶幽风4 小时前
论文阅读·人工智能·笔记·多模态·理解生成模型
论文阅读笔记——Step1X-Edit: A Practical Framework for General Image EditingStep1X-Edit 论文 当前图像编辑数据集规模小,质量差,由此构建了如下数据构造管线。 高质量三元组数据(源图像、编辑指令、目标图像)。
寻丶幽风3 天前
论文阅读·笔记·大模型·多模态
论文阅读笔记——Emerging Properties in Unified Multimodal PretrainingBAGEL 论文 商业闭源系统与学术/开源模型的差距很大,BAGEL 旨在通过开源统一架构+大规模交错数据主要解决:
寻丶幽风3 天前
论文阅读·人工智能·笔记·多模态·理解生成模型
论文阅读笔记——Janus,Janus ProJanus 论文多模态理解 图片生成 消融实验Janus Pro 论文 主要改进在于训练策略、数据、模型大小。
扫地僧9854 天前
人工智能·深度学习·transformer·多模态·情绪识别
基于音频Transformer与动作单元的多模态情绪识别算法设计与实现(在RAVDESS数据集上的应用)摘要:情感识别技术在医学、自动驾驶等多个领域的广泛应用,正吸引着研究界的持续关注。本研究提出了一种融合语音情感识别(SER)与面部情感识别(FER)的自动情绪识别系统。在SER方面,我们采用两种迁移学习技术评估了预训练的xlsr-Wav2Vec2.0转换器:嵌入提取和微调。实验结果显示,通过附加多层感知器进行整体微调时取得最佳准确率,验证了迁移学习相较于从头训练更具鲁棒性,且预训练知识有助于任务适应。在FER方面,通过提取视频动作单元对比静态模型与顺序模型的性能差异,发现两者差异较小。错误分析表明,视觉系
CV-deeplearning5 天前
论文阅读·多模态·图像编辑
StepX-Edit:一个通用图像编辑框架——论文阅读笔记代码:https://github.com/stepfun-ai/Step1X-Edit 论文:https://arxiv.org/abs/2504.17761 近年来,图像编辑技术发展迅速,GPT- 4o、Gemini2 Flash等前沿多模态模型的推出,展现了图像编辑能力的巨大潜力。 这些模型展示了令人印象深刻的适应能力,能够满足绝大多数用户驱动的编辑需求,标志着图像处理领域取得了重大进展。然而,开源算法与这些闭源模型之间仍存在较大差距。为此,我们介绍了一种最先进的图像编辑模型——Step1X-Edi
逐云者1236 天前
agent·零售·多模态·智能系统架构
零售智能执行大模型架构设计:从空间建模到上下文推理,再到智能Agent在传统零售执行中,面对SKU数量庞杂、货架布置多变、陈列标准难以落地等问题,靠人力巡检或轻量识别模型已难以应对。新一代的多阶段多模态大模型架构,不只是“识别什么”,更能“理解为什么”,并驱动后续的智能任务调度与决策反馈。
老唐7778 天前
人工智能·深度学习·机器学习·ai·自然语言处理·大模型·多模态
前沿技术:如何从多模态文件中自动提取有效信息?随着信息技术的快速发展,数据的获取与处理变得尤为重要。多模态文件信息抽取能力是指从包含多种类型数据(如文本、图像、音频、视频等)的文件中自动提取有用信息的技术。这种技术在多个领域都有广泛的应用,能够显著提高信息处理的效率和准确性。
Panesle9 天前
人工智能·开源·大模型·多模态·生成模型
开源的跨语言GUI元素理解8B大模型:AgentCPM-GUIAgentCPM-GUI 是由清华大学自然语言处理实验室 (THUNLP) 和 ModelBest 联合开发的开源大模型。该模型基于 MiniCPM-V 架构,拥有 80 亿参数规模,是一个能够直接在终端设备上运行的轻量化智能体。它创新性地将多模态输入与 GUI 操作相结合,主要面向移动终端应用交互场景,通过接收智能手机屏幕截图作为输入,自动执行用户指定的各类任务。这标志着智能体技术在移动端 GUI 操作领域迈出了重要一步,为后续研究和应用开发提供了新的思路。
Panesle13 天前
人工智能·开源·大模型·文生视频·多模态·生成模型
阿里开源通义万相Wan2.1-VACE-14B:用于视频创建和编辑的一体化模型Wan2.1是一个全面且开放的视频基础模型套件,旨在突破视频生成的边界。该模型在多个基准测试中持续超越现有的开源模型和商业解决方案的性能。Wan2.1支持多种任务,包括文本到视频、图像到视频、视频编辑、文本到图像和视频到音频,推动了视频生成领域的发展。此外,Wan2.1还具备生成中英文文本的能力,极大增强了其实际应用价值。
aminghhhh16 天前
人工智能·深度学习·学习·计算机视觉·多模态
多模态融合【十九】——MRFS: Mutually Reinforcing Image Fusion and Segmentation目录一.摘要二.Introduction三. 背景与动机四.方法4.1. 概述4.2. IGM-Att模块
engchina18 天前
人工智能·多模态·提取图片文字
测试一下多模态提取图片中文字的能力原图片,提取结果,提取错误的地方,错误的地方还是挺多的,期待多模态模型越来越好。
Panesle20 天前
人工智能·计算机视觉·文生图·多模态
Chroma:一个开源的8.9B文生图模型Chroma 是一个基于 FLUX.1-schnell 的 8.9B 参数模型。它采用了 Apache 2.0 许可证,完全开源,允许任何人使用、修改和在其基础上进行开发,不存在企业限制。该模型目前正在训练中,训练数据集从 20M 样本中精心挑选出 5M 数据,涵盖动漫、兽类、艺术作品和照片等多种类型。Chroma 模型完全未经过审查,重新引入了缺失的人体解剖学概念,旨在成为一个可靠且开放的开源选择。
hongjianMa21 天前
论文阅读·深度学习·推荐系统·推荐算法·多模态·自注意力机制
【论文阅读】Attentive Collaborative Filtering:Attentive Collaborative Filtering (ACF)、隐式反馈推荐、注意力机制、贝叶斯个性化排序
hongjianMa21 天前
论文阅读·深度学习·推荐系统·多模态·对抗·vbpr
【论文阅读】Adversarial Training Towards Robust Multimedia Recommender System题目翻译:面向鲁棒多媒体推荐系统的对抗训练 论文链接:点这里标签:多媒体推荐、对抗训练、推荐系统鲁棒性
余俊晖23 天前
多模态
多模态大模型轻量化探索-开源SmolVLM模型架构、数据策略及其衍生物PDF解析模型SmolDocling在《多模态大模型轻量化探索-视觉大模型SAM的视觉编码器》介绍到,缩小视觉编码器的尺寸,能够有效的降低多模态大模型的参数量。再来看一个整体的工作,从视觉侧和语言模型侧综合考量模型参数量的平衡模式,进一步降低参数量,甚至最小达256M参数量,推理时显存占用<1GB。下面来看看,仅供参考。
hongjianMa24 天前
论文阅读·python·深度学习·卷积神经网络·推荐系统·推荐算法·多模态
【论文阅读】Joint Deep Modeling of Users and Items Using Reviews for Recommendation题目翻译:利用评论对用户和项目进行联合深度建模进行推荐原文地址:点这里关键词: DeepCoNN、推荐系统、卷积神经网络、评论建模、协同建模、评分预测、联合建模
kaaokou1 个月前
论文阅读·大模型·llm·ocr·多模态·vl
论文笔记——QWen2.5 VL视觉理解和自然语言处理的集成一直是人工智能研究的一个重要焦点,促成了日益复杂的视觉语言模型 (VLMs) 的发展。由阿里巴巴集团 Qwen 团队开发的 Qwen2.5-VL 代表了该领域的重大进步,尤其侧重于增强精细感知能力。
学渣676561 个月前
搜索引擎·计算机视觉·百度·多模态
多模态人工智能研究:视觉语言模型的过去、现在与未来1. 引言:定义多模态图景多模态人工智能指的是旨在处理和整合来自多种数据类型或“模态”信息的人工智能系统,这些模态包括文本、图像、音频和视频等。与通常侧重于单一模态(例如,用于文本的自然语言处理或用于图像的计算机视觉)的传统人工智能不同,多模态人工智能旨在通过结合这些不同的数据形式来理解和生成见解1。这种方法模仿了人类的认知方式,我们自然地整合来自各种感官的输入,以形成对世界的连贯理解1。多模态人工智能的重要性在于其有潜力创建更准确、更细致和更像人类的人工智能系统,这些系统能够理解复杂的现实世界场景1。多
L-含光承影1 个月前
论文阅读·计算机视觉·多模态
【第三十三周】BLIP论文阅读笔记本博客介绍了BLIP(Bootstrapping Language-Image Pre-training),这是一种创新的视觉-语言预训练框架,旨在通过统一模型架构和高效数据增强策略,同时解决现有视觉-语言模型在理解与生成任务上的割裂性以及网络数据噪声对性能的制约。其核心思想包含两方面:模型层面提出多模态混合编码器-解码器(MED),通过共享参数支持三种模式——单模态编码器(对齐全局特征)、跨模态编码器(细粒度匹配)和跨模态解码器(生成描述),联合优化图像-文本对比(ITC)、匹配(ITM)和语言建模(L
X.Cristiano1 个月前
多模态·qwen2.5-vl
多模态大模型 Qwen2.5-VL 的学习之旅Qwen-VL 是阿里云研发的大规模视觉语言模型(Large Vision Language Model, LVLM)。Qwen-VL 可以以图像、文本、检测框作为输入,并以文本和检测框作为输出。Qwen-VL 系列模型性能强大,具备多语言对话、多图交错对话等能力,并支持中文开放域定位和细粒度图像识别与理解。