多模态

威化饼的一隅2 天前
大模型·agent·多模态·智能体
【多模态】天池AFAC赛道四-智能体赋能的金融多模态报告自动化生成part2-报告输出本任务需要参赛团队研发一个能够自动撰写三大类季度/年度跟踪型金融研报(宏观经济/策略研报、行业/子行业研报、公司/个股研报)的智能Agent系统,需实现生成研报质量及构建使用技术两部分的目标。
威化饼的一隅3 天前
大模型·agent·多模态·智能体
【多模态】天池AFAC赛道四-智能体赋能的金融多模态报告自动化生成part1-数据获取本任务需要参赛团队研发一个能够自动撰写三大类季度/年度跟踪型金融研报(宏观经济/策略研报、行业/子行业研报、公司/个股研报)的智能Agent系统,需实现生成研报质量及构建使用技术两部分的目标。
静心问道3 天前
人工智能·多模态·ai技术应用
Idefics3:构建和更好地理解视觉-语言模型:洞察与未来方向温馨提示: 本篇文章已同步至"AI专题精讲" Idefics3:构建和更好地理解视觉-语言模型:洞察与未来方向
静心问道3 天前
人工智能·多模态·ai技术应用
InstructBLIP:通过指令微调迈向通用视觉-语言模型温馨提示: 本篇文章已同步至"AI专题精讲" InstructBLIP:通过指令微调迈向通用视觉-语言模型
静心问道10 天前
人工智能·语言模型·多模态
KOSMOS-2: 将多模态大型语言模型与世界对接温馨提示: 本篇文章已同步至"AI专题精讲" KOSMOS-2: 将多模态大型语言模型与世界对接我们介绍了 KOSMOS-2,一种多模态大型语言模型(MLLM),赋予了模型感知物体描述(例如,边界框)并将文本与视觉世界对接的新能力。具体而言,我们将引用表达式表示为 Markdown 中的链接形式,即 “文本片段”,其中物体描述是位置标记的序列。通过与多模态语料库的结合,我们构建了大规模的图像-文本对(称为 GRIT)数据,用于训练模型。除了现有的 MLLM 能力(例如,感知一般模态、遵循指令和执行上下文学
静心问道12 天前
人工智能·深度学习·transformer·多模态
TrOCR: 基于Transformer的光学字符识别方法,使用预训练模型温馨提示: 本篇文章已同步至"AI专题精讲" TrOCR: 基于Transformer的光学字符识别方法,使用预训练模型
MUTA️13 天前
人工智能·深度学习·微调·prompt·多模态
Clip微调系列:《MaPLe: Multi-modal Prompt Learning》论文链接:arxiv.org/pdf/2210.03117参考链接:(28 封私信) CVPR2023 | MaPLe: Multi-modal Prompt Learning - 知乎
高堂明镜悲白发15 天前
多模态·图像搜索
基于Chinese-CLIP与ChromaDB的中文图像检索功能实现本文按“原理 → 代码 → 讲解”三层展开,读者只需具备 Python 基础即可跟随完成一个可落地的以文搜图应用。
静心问道17 天前
人工智能·多模态·ai技术应用
VISUALBERT:一个简单且高效的视觉与语言基线模型温馨提示: 本篇文章已同步至"AI专题精讲" VISUALBERT:一个简单且高效的视觉与语言基线模型
扫地僧98521 天前
自动化·多模态·情绪识别
用于构建多模态情绪识别与推理(MERR)数据集的自动化工具MER-Factory 项目是一个用于构建多模态情感识别与推理(MERR)数据集的自动化工厂,它能够处理多种类型的多媒体数据,并进行情感分析和推理。以下是该项目的主要功能:
九年义务漏网鲨鱼22 天前
人工智能·深度学习·学习·语言模型·多模态
【大模型学习 | MINIGPT-4原理】在GPT4未开源的情况下,作者认为其表现优越是因为采用了最为先进的LLM模型,因此,作者在BLIP2的基础上,将LLM模型替换为了Vicuna,同样也是通过一个线性映射层将图像表征映射为LLM的输入。此外,作者还提出只在短标题文本对上训练会出现不自然的语言描述(重复)。因此作者也构建了一个更加详细的图像描述数据集。
karmueo4623 天前
算法·音视频·多模态
视频序列和射频信号多模态融合算法Fusion-Vital解读最近看了Fusion-Vital的视频-射频(RGB-RF)融合Transformer模型。记录一下,对于实际项目中的多模态数据融合有一定参考价值。原始论文,参考实现源码。 具体来说,Fusion-Vital模型首先将多帧视频RGB图像投影到一个共享的时间差分域中,以有效捕捉微小的生理信号,同时避免全局运动的干扰。 对于RF射频模态,利用多普勒特性,通过短时傅里叶变换(STFT)生成时间-频率图像,作为时间差分域的替代指标。 模型采用并行编码分支,分别处理RGB和RF数据,并引入多级特征融合模块,利用交叉
风信子的猫Redamancy1 个月前
百度·语言模型·开源·文心一言·多模态
百度文心 ERNIE 4.5 开源:开启中国多模态大模型开源新时代随着DeepSeek-R1的横空出示,越来越多大公司开始开源模型,像DeepSeek R1发布的时候Kimi同步开源了技术文档,随着R1推动着思维链推理技术的发展,开源社区也出现了越来越多开源推理大模型,比如前段时间开源的Qwen3,开始使用MOE架构并且能自由切换思维模式,以及Kimi也开源了一些模型,比如Kimi-VL多模态模型,也适用了思维链R1的方式应用到多模态大模型中。最近冲浪中,我又发现百度也开始进行开源了,6.30号的时候刚刚发布了开源模型,也就是文心大模型 ERNIE 4.5系列,现在在h
Sherlock Ma25 天前
人工智能·百度·自然语言处理·开源·大模型·文心一言·多模态
百度开源文心一言4.5:论文解读和使用入门近日,百度ERNIE团队发布的ERNIE 4.5模型家族。该家族包含10种不同的大规模多模态模型变体,涵盖了47B和3B激活参数的混合专家(MoE)模型,以及拥有424B总参数的模型和一个0.3B的密集模型。这些模型采用了新颖的异构模态结构,支持跨模态的参数共享,同时允许每个模态拥有独立的参数,以增强多模态理解能力,且不会损害文本相关任务的性能。所有模型均使用PaddlePaddle深度学习框架进行高效训练,实现了高性能推理和简化部署。
Ai多利2 个月前
人工智能·算法·计算机视觉·多模态·特征选择
深度学习登上Nature子刊!特征选择创新思路2025深度学习发论文&模型涨点之——特征选择特征选择作为机器学习与数据挖掘领域的核心预处理步骤,其重要性在当今高维数据时代日益凸显。
余俊晖2 个月前
agent·多模态·文档智能
使用多Agent进行海报生成的技术方案及评估套件-P2P、paper2poster最近字节、滑铁卢大学相关团队同时放出了他们使用Agent进行海报生成的技术方案,P2P和Paper2Poster,传统方案如类似ppt生成等思路,基本上采用固定的模版,提取相关的关键元素进行模版填充,因此,海报生成的质量完全依赖于规则模版的丰富程度。下面来看一下这两个团队使用Agent进行海报生成的技术思路,覆盖多种技术链路,如:文档智能解析、LLM、布局生成、Agent等。比如有趣,下面来看看这两个技术方案,供参考。
扫地僧9852 个月前
音视频·多模态·eav:eeg数据集
基于多模态脑电、音频与视觉信号的情感识别算法【Nature核心期刊,EAV:EEG-音频-视频数据集】理解情感状态对于开发下一代人机交互界面至关重要。社交互动中的人类行为会引发受感知输入影响的心理生理过程。因此,探索大脑功能与人类行为的努力或将推动具有类人特质人工智能模型的发展。这里原作者推出一个多模态情感数据集,包含42名参与者的30通道脑电图(EEG)、音频和视频记录数据。每位参与者均参与基于线索的对话情境,诱发五种特定情绪:中性、愤怒、快乐、悲伤及平静。实验过程中,每位参与者完成200次涵盖倾听与表达的双向互动,全体参与者累计产生8,400次互动样本。采用成熟的深度神经网络(DNN)方法,对各模态的
寻丶幽风2 个月前
论文阅读·人工智能·笔记·多模态·理解生成模型
论文阅读笔记——Step1X-Edit: A Practical Framework for General Image EditingStep1X-Edit 论文 当前图像编辑数据集规模小,质量差,由此构建了如下数据构造管线。 高质量三元组数据(源图像、编辑指令、目标图像)。
寻丶幽风2 个月前
论文阅读·笔记·大模型·多模态
论文阅读笔记——Emerging Properties in Unified Multimodal PretrainingBAGEL 论文 商业闭源系统与学术/开源模型的差距很大,BAGEL 旨在通过开源统一架构+大规模交错数据主要解决:
寻丶幽风2 个月前
论文阅读·人工智能·笔记·多模态·理解生成模型
论文阅读笔记——Janus,Janus ProJanus 论文多模态理解 图片生成 消融实验Janus Pro 论文 主要改进在于训练策略、数据、模型大小。