多模态

audyxiao0012 天前
人工智能·计算机视觉·transformer·图像分割·多模态
期刊研究热点扫描|一文了解计算机视觉顶刊TIP的研究热点本推文对2025年9月计算机视觉顶级期刊《IEEE Transactions on Image Processing》(简称TIP)的研究热点进行了分析,对收录的60篇论文进行了标题高频词统计,深入挖掘了计算机视觉领域的当前研究动态。希望本文能为计算机视觉领域的研究人员提供一些有价值的参考。
Keep_Trying_Go7 天前
人工智能·pytorch·语言模型·大模型·多模态·lightning
LightningCLI教程 + 视频讲解视频讲解1:Bliibili视频讲解视频讲解2:https://www.douyin.com/video/7575471066336873747
山顶夕景7 天前
大模型·多模态·视频生成·sora
【LLM-video】HunyuanVideo-1.5视频生成模型解决视频生成中的高效推理和高视觉质量问题:1、轻量级高性能架构:提出了一个高效的架构,集成了一个83亿参数的扩散变压器(DiT)和一个3D因果VAE,实现了空间维度上的16倍压缩和时间轴上的4倍压缩。
qqxhb8 天前
重构·数据挖掘·数据分析·多模态·mcp
零基础MCP——第5章编程实战基础(网页、数据分析、调试与重构)本章以实战为导向,围绕五类高频任务(网页原型、数据分析、调试修复、重构优化、文档注释)给出“从需求到验收”的端到端流程:包括提示词模板、落地代码片段、验证清单与常见陷阱。你可以将本章内容直接用于日常开发与教学演练。
合合技术团队10 天前
大数据·人工智能·算法·大模型·多模态
论文解读-对话中的多模态情感识别综述尽管基于文本的情感识别方法已经取得了显著的成就,但现实世界中的对话系统往往需要比单一模态所能提供的更加细腻的情感理解。因此,多模态情感识别(MERC)成为了提升人机交互自然性和情感理解的关键方向。其目标是通过整合文本、语音和视觉信号等不同模态的信息,准确地识别情感。本综述系统地概述了MERC,包括其动机、核心任务、代表性方法和评估策略。论文进一步探讨了最近的趋势,指出了关键挑战,并概述了未来的发展方向。随着对情感智能系统兴趣的增长,本综述为MERC研究的进展提供了及时的指导。
KG_LLM图谱增强大模型10 天前
大数据·人工智能·算法·大模型·知识图谱·多模态
Vgent:基于图的多模态检索推理增强生成框架GraphRAG,突破长视频理解瓶颈沙特阿卜杜拉国王科技大学和Meta AI研究团队提出Vgent框架,通过构建视频语义图谱和结构化推理机制,显著提升大型视频语言模型在长视频理解任务中的表现,在MLVU基准测试中获得3.0%-5.4%的性能提升。
余俊晖12 天前
人工智能·算法·语言模型·自然语言处理·多模态
英伟达开源多模态视觉语言模型-Nemotron Nano V2 VL模型架构、训练方法、训练数据英伟达的技术报告一般细节都比较多,本次开源的12B的参数模型-Nemotron Nano V2 VL专为文档理解、长视频理解及推理任务而设计。下面来快速过一下。
LLM炼丹炉17 天前
多模态·视频理解·多模态大语言模型·李飞飞·空间超感知·谢赛宁·cambrian-s
谢赛宁×李飞飞×LeCun联手重磅|Cambrian-S:「视频空间超感知」新范式,实现真正持续视频感知关键词:空间超感知(Spatial Supersensing)、视频理解(Video Understanding)、预测性感知(Predictive Sensing)、基准评测(Benchmarking)、多模态大语言模型(MLLMs)、世界建模(World Modeling)
商汤万象开发者22 天前
人工智能·科技·算法·开源·多模态
LazyLLM教程 | 第13讲:RAG+多模态:图片、表格通吃的问答系统在前面的课程中,我们探讨了 RAG(Retrieval-Augmented Generation)的基本原理及其在纯文本处理中的应用。RAG 通过从外部知识库检索相关信息,结合上下文生成更准确、信息丰富的回答,从而提升基于文本的问答系统能力。
X.Cristiano24 天前
ocr·多模态·视觉压缩
DeepSeek-OCR和Glyph用视觉压缩思路对比大语言模型(LLM)在处理长文档时,普遍面临“计算开销随文本长度平方级增长”的瓶颈。为破解这一难题,视觉压缩 成为了一条富有前景的新路径——不再单纯依赖文本Token,而是将文本转换为图像,利用视觉编码器进行高效压缩。
小花皮猪24 天前
人工智能·多模态·ai代理·aeo
多模态 AI 时代的数据困局与机遇,Bright Data 赋能LLM 训练以及AEO场景单纯依赖文本训练的 LLM 时代正在落幕,多模态 AI 时代已经到来,在LLM训练中,尤其是多模态数据,已经成为 AI 大模型竞赛的核心战场。当无数 AI 团队和研究机构踏入多模态数据采集领域时,却发现自己面临着前所未有的困局:
rengang661 个月前
java·人工智能·spring·多模态·spring ai·ai应用编程
352-Spring AI Alibaba OpenAI DashScope 多模态示例本示例演示如何通过 Spring AI 的 OpenAI 客户端接口调用阿里云 DashScope 的多模态模型(如 qwen-vl-max-latest),实现图片分析功能。虽然依赖了 Spring AI 的 OpenAI 模块,但底层实际调用的是 DashScope 的兼容模式接口。
rengang661 个月前
java·人工智能·spring·多模态·spring ai·ai应用编程
353-Spring AI Alibaba ARK 多模型示例本示例将展示如何使用 Spring AI Alibaba 集成 ARK 多模型能力,实现图像理解、视频内容分析等多模态 AI 功能。ARK 是字节跳动提供的大模型服务平台,支持多种 AI 模型能力。
rengang661 个月前
java·人工智能·spring·多模态·spring ai·ai应用编程
351-Spring AI Alibaba Dashscope 多模型示例本示例演示了如何使用 Spring AI Alibaba Starter 与 Dashscope 的多模态服务,实现图像识别、视频分析和音频处理功能。
熊猫钓鱼>_>1 个月前
ai·typescript·多模态·仓颉·cangjie·智能推荐系统·强类型
仓颉语言:智能应用开发的新范式目录1. 引言2. 仓颉语言的核心特性强类型系统并发与异步支持AI原生设计跨设备协同3. 智能应用开发实践
熊猫钓鱼>_>1 个月前
自动化·llm·多模态·模板·rag·垂直领域
基于模板提高垂直领域大模型应用场景的文字语言组织准确性随着人工智能技术的快速发展,大语言模型(LLM)在各垂直领域的应用日益广泛。然而,通用大模型在特定专业场景中往往面临语言准确性、格式规范性和专业术语一致性等挑战。本文深入探讨如何通过模板工程提升垂直领域大模型应用的语言组织准确性,并结合检索增强生成(RAG)技术进一步增强报告生成能力。
何如千泷1 个月前
论文阅读·大模型·多模态·1024程序员节
【论文阅读】Qwen2.5-VL Technical Report论文链接:https://arxiv.org/pdf/2502.13923Code: https://github.com/QwenLM/Qwen3-VL
暖阳之下1 个月前
学习·多模态·1024程序员节
学习周报十九本周深入研究了混合专家模型(MoE)的核心原理与Stable Diffusion的图像生成机制。系统分析了MoE架构中稀疏层与门控网络的协同工作机制,详细解析了动态路由策略、负载均衡优化及辅助损失函数设计;全面掌握了Stable Diffusion的完整工作流程,包括CLIP文本编码、U-Net噪声预测、VAE隐空间压缩等关键技术环节。通过理论推导与架构分析,建立了从大模型参数效率优化到生成式模型原理的深度认知框架。
是Dream呀1 个月前
图像处理·人工智能·aigc·agi·多模态·合合信息
PRCV 2025:文本何以成为 AGI 的必经之路?本文目录:一、从"看见"到"读懂"的认知跨越1.重新定义"文本"的边界2.三层架构支撑全链路智能二、底层视觉处理
wanzhong23331 个月前
深度学习·ocr·多模态·deepseek
Deepseek-ocr论文精读Deepseek这项工作终于填补了长期以来只能纯文本输入的空白!给出了几个重要信息下图其他模型的在基准测试中对比,出手就是王炸,deepseek-ocr系列包揽了整个外围,类似机器学习的AUC图像,面积越大,模型性能越好。这个模型在各个token量级下的表现都是显著高于其他模型的。牛逼就完了。