多模态

扫地僧9856 小时前
自动化·多模态·情绪识别
用于构建多模态情绪识别与推理(MERR)数据集的自动化工具MER-Factory 项目是一个用于构建多模态情感识别与推理(MERR)数据集的自动化工厂,它能够处理多种类型的多媒体数据,并进行情感分析和推理。以下是该项目的主要功能:
九年义务漏网鲨鱼1 天前
人工智能·深度学习·学习·语言模型·多模态
【大模型学习 | MINIGPT-4原理】在GPT4未开源的情况下,作者认为其表现优越是因为采用了最为先进的LLM模型,因此,作者在BLIP2的基础上,将LLM模型替换为了Vicuna,同样也是通过一个线性映射层将图像表征映射为LLM的输入。此外,作者还提出只在短标题文本对上训练会出现不自然的语言描述(重复)。因此作者也构建了一个更加详细的图像描述数据集。
karmueo462 天前
算法·音视频·多模态
视频序列和射频信号多模态融合算法Fusion-Vital解读最近看了Fusion-Vital的视频-射频(RGB-RF)融合Transformer模型。记录一下,对于实际项目中的多模态数据融合有一定参考价值。原始论文,参考实现源码。 具体来说,Fusion-Vital模型首先将多帧视频RGB图像投影到一个共享的时间差分域中,以有效捕捉微小的生理信号,同时避免全局运动的干扰。 对于RF射频模态,利用多普勒特性,通过短时傅里叶变换(STFT)生成时间-频率图像,作为时间差分域的替代指标。 模型采用并行编码分支,分别处理RGB和RF数据,并引入多级特征融合模块,利用交叉
风信子的猫Redamancy5 天前
百度·语言模型·开源·文心一言·多模态
百度文心 ERNIE 4.5 开源:开启中国多模态大模型开源新时代随着DeepSeek-R1的横空出示,越来越多大公司开始开源模型,像DeepSeek R1发布的时候Kimi同步开源了技术文档,随着R1推动着思维链推理技术的发展,开源社区也出现了越来越多开源推理大模型,比如前段时间开源的Qwen3,开始使用MOE架构并且能自由切换思维模式,以及Kimi也开源了一些模型,比如Kimi-VL多模态模型,也适用了思维链R1的方式应用到多模态大模型中。最近冲浪中,我又发现百度也开始进行开源了,6.30号的时候刚刚发布了开源模型,也就是文心大模型 ERNIE 4.5系列,现在在h
Sherlock Ma4 天前
人工智能·百度·自然语言处理·开源·大模型·文心一言·多模态
百度开源文心一言4.5:论文解读和使用入门近日,百度ERNIE团队发布的ERNIE 4.5模型家族。该家族包含10种不同的大规模多模态模型变体,涵盖了47B和3B激活参数的混合专家(MoE)模型,以及拥有424B总参数的模型和一个0.3B的密集模型。这些模型采用了新颖的异构模态结构,支持跨模态的参数共享,同时允许每个模态拥有独立的参数,以增强多模态理解能力,且不会损害文本相关任务的性能。所有模型均使用PaddlePaddle深度学习框架进行高效训练,实现了高性能推理和简化部署。
Ai多利1 个月前
人工智能·算法·计算机视觉·多模态·特征选择
深度学习登上Nature子刊!特征选择创新思路2025深度学习发论文&模型涨点之——特征选择特征选择作为机器学习与数据挖掘领域的核心预处理步骤,其重要性在当今高维数据时代日益凸显。
余俊晖1 个月前
agent·多模态·文档智能
使用多Agent进行海报生成的技术方案及评估套件-P2P、paper2poster最近字节、滑铁卢大学相关团队同时放出了他们使用Agent进行海报生成的技术方案,P2P和Paper2Poster,传统方案如类似ppt生成等思路,基本上采用固定的模版,提取相关的关键元素进行模版填充,因此,海报生成的质量完全依赖于规则模版的丰富程度。下面来看一下这两个团队使用Agent进行海报生成的技术思路,覆盖多种技术链路,如:文档智能解析、LLM、布局生成、Agent等。比如有趣,下面来看看这两个技术方案,供参考。
扫地僧9851 个月前
音视频·多模态·eav:eeg数据集
基于多模态脑电、音频与视觉信号的情感识别算法【Nature核心期刊,EAV:EEG-音频-视频数据集】理解情感状态对于开发下一代人机交互界面至关重要。社交互动中的人类行为会引发受感知输入影响的心理生理过程。因此,探索大脑功能与人类行为的努力或将推动具有类人特质人工智能模型的发展。这里原作者推出一个多模态情感数据集,包含42名参与者的30通道脑电图(EEG)、音频和视频记录数据。每位参与者均参与基于线索的对话情境,诱发五种特定情绪:中性、愤怒、快乐、悲伤及平静。实验过程中,每位参与者完成200次涵盖倾听与表达的双向互动,全体参与者累计产生8,400次互动样本。采用成熟的深度神经网络(DNN)方法,对各模态的
寻丶幽风1 个月前
论文阅读·人工智能·笔记·多模态·理解生成模型
论文阅读笔记——Step1X-Edit: A Practical Framework for General Image EditingStep1X-Edit 论文 当前图像编辑数据集规模小,质量差,由此构建了如下数据构造管线。 高质量三元组数据(源图像、编辑指令、目标图像)。
寻丶幽风1 个月前
论文阅读·笔记·大模型·多模态
论文阅读笔记——Emerging Properties in Unified Multimodal PretrainingBAGEL 论文 商业闭源系统与学术/开源模型的差距很大,BAGEL 旨在通过开源统一架构+大规模交错数据主要解决:
寻丶幽风1 个月前
论文阅读·人工智能·笔记·多模态·理解生成模型
论文阅读笔记——Janus,Janus ProJanus 论文多模态理解 图片生成 消融实验Janus Pro 论文 主要改进在于训练策略、数据、模型大小。
扫地僧9851 个月前
人工智能·深度学习·transformer·多模态·情绪识别
基于音频Transformer与动作单元的多模态情绪识别算法设计与实现(在RAVDESS数据集上的应用)摘要:情感识别技术在医学、自动驾驶等多个领域的广泛应用,正吸引着研究界的持续关注。本研究提出了一种融合语音情感识别(SER)与面部情感识别(FER)的自动情绪识别系统。在SER方面,我们采用两种迁移学习技术评估了预训练的xlsr-Wav2Vec2.0转换器:嵌入提取和微调。实验结果显示,通过附加多层感知器进行整体微调时取得最佳准确率,验证了迁移学习相较于从头训练更具鲁棒性,且预训练知识有助于任务适应。在FER方面,通过提取视频动作单元对比静态模型与顺序模型的性能差异,发现两者差异较小。错误分析表明,视觉系
CV-deeplearning2 个月前
论文阅读·多模态·图像编辑
StepX-Edit:一个通用图像编辑框架——论文阅读笔记代码:https://github.com/stepfun-ai/Step1X-Edit 论文:https://arxiv.org/abs/2504.17761 近年来,图像编辑技术发展迅速,GPT- 4o、Gemini2 Flash等前沿多模态模型的推出,展现了图像编辑能力的巨大潜力。 这些模型展示了令人印象深刻的适应能力,能够满足绝大多数用户驱动的编辑需求,标志着图像处理领域取得了重大进展。然而,开源算法与这些闭源模型之间仍存在较大差距。为此,我们介绍了一种最先进的图像编辑模型——Step1X-Edi
逐云者1232 个月前
agent·零售·多模态·智能系统架构
零售智能执行大模型架构设计:从空间建模到上下文推理,再到智能Agent在传统零售执行中,面对SKU数量庞杂、货架布置多变、陈列标准难以落地等问题,靠人力巡检或轻量识别模型已难以应对。新一代的多阶段多模态大模型架构,不只是“识别什么”,更能“理解为什么”,并驱动后续的智能任务调度与决策反馈。
老唐7772 个月前
人工智能·深度学习·机器学习·ai·自然语言处理·大模型·多模态
前沿技术:如何从多模态文件中自动提取有效信息?随着信息技术的快速发展,数据的获取与处理变得尤为重要。多模态文件信息抽取能力是指从包含多种类型数据(如文本、图像、音频、视频等)的文件中自动提取有用信息的技术。这种技术在多个领域都有广泛的应用,能够显著提高信息处理的效率和准确性。
Panesle2 个月前
人工智能·开源·大模型·多模态·生成模型
开源的跨语言GUI元素理解8B大模型:AgentCPM-GUIAgentCPM-GUI 是由清华大学自然语言处理实验室 (THUNLP) 和 ModelBest 联合开发的开源大模型。该模型基于 MiniCPM-V 架构,拥有 80 亿参数规模,是一个能够直接在终端设备上运行的轻量化智能体。它创新性地将多模态输入与 GUI 操作相结合,主要面向移动终端应用交互场景,通过接收智能手机屏幕截图作为输入,自动执行用户指定的各类任务。这标志着智能体技术在移动端 GUI 操作领域迈出了重要一步,为后续研究和应用开发提供了新的思路。
Panesle2 个月前
人工智能·开源·大模型·文生视频·多模态·生成模型
阿里开源通义万相Wan2.1-VACE-14B:用于视频创建和编辑的一体化模型Wan2.1是一个全面且开放的视频基础模型套件,旨在突破视频生成的边界。该模型在多个基准测试中持续超越现有的开源模型和商业解决方案的性能。Wan2.1支持多种任务,包括文本到视频、图像到视频、视频编辑、文本到图像和视频到音频,推动了视频生成领域的发展。此外,Wan2.1还具备生成中英文文本的能力,极大增强了其实际应用价值。
aminghhhh2 个月前
人工智能·深度学习·学习·计算机视觉·多模态
多模态融合【十九】——MRFS: Mutually Reinforcing Image Fusion and Segmentation目录一.摘要二.Introduction三. 背景与动机四.方法4.1. 概述4.2. IGM-Att模块
engchina2 个月前
人工智能·多模态·提取图片文字
测试一下多模态提取图片中文字的能力原图片,提取结果,提取错误的地方,错误的地方还是挺多的,期待多模态模型越来越好。
Panesle2 个月前
人工智能·计算机视觉·文生图·多模态
Chroma:一个开源的8.9B文生图模型Chroma 是一个基于 FLUX.1-schnell 的 8.9B 参数模型。它采用了 Apache 2.0 许可证,完全开源,允许任何人使用、修改和在其基础上进行开发,不存在企业限制。该模型目前正在训练中,训练数据集从 20M 样本中精心挑选出 5M 数据,涵盖动漫、兽类、艺术作品和照片等多种类型。Chroma 模型完全未经过审查,重新引入了缺失的人体解剖学概念,旨在成为一个可靠且开放的开源选择。