技术栈
多模态大模型
audyxiao001
5 小时前
人工智能
·
深度学习
·
多模态大模型
智能交通顶刊TITS论文分享|一种基于文本提示引导的多模态大语言模型的交通流预测框架
本文分享了一篇2026年智能交通顶级期刊IEEE Transactions on Intelligent Transportation Systems(TITS)接收的论文《Emergency Events Traffic Flow Forecasting Using Text-Prompt-Guided Multimodal Large Language Models》。该论文针对城市交通中突发事件导致常规预测模型失效的痛点,提出了一种名为TPGM-LLM的预测框架。该框架通过大语言模型将突发事件的文本
_张一凡
17 天前
aigc
·
面试面经
·
多模态大模型
·
qwen3
【AIGC面试面经第七期】多模态大模型Qwen-Vl系列面试问题汇总
1、Qwen-VL系列视觉编码器的核心演进路径及每代解决的问题? 2、Qwen2-VL中提出的M-RoPE如何统一处理文本、图像和视频的位置编码? 3、Qwen-VL系列模型的三阶段训练范式的具体运作机制与各阶段数据策略? 4、Qwen2.5-VL使用绝对位置坐标相比归一化坐标在目标检测中的优势? 5、Qwen2.5-VL使用动态FPS采样与3D patch划分如何协同提升视频理解? 6、Qwen2.5-VL后训练阶段如何结合监督微调(SFT)和直接偏好优化(DPO)? 7、Qwen-VL系列模型中多模态
羊小猪~~
23 天前
大模型
·
llm
·
nlp
·
多模态
·
多模态大模型
·
vit
·
ai算法
LLM--VIT简介
论文精度视频:VIT论文精度,这里做简要概述CNN神经网络是ai算法中最重要,最经典的算法之一,在vit出现之前,Resnet模型一直都是最好的视觉模型;当然CNN也不是没有缺点,其中有两个典型的缺点:局部性和平移不变性。
@BangBang
2 个月前
多模态大模型
双向注意力(Bidirectional Attention)详解
双向注意力是同时建模两个序列之间双向信息流动的注意力机制,广泛应用于机器翻译、问答系统、多模态融合等任务。以下是深度解析:
M宝可梦
2 个月前
人工智能
·
多模态大模型
·
scaling law
·
统一理解生成模型
谢赛宁 x LeCun x Meta 多模态新作:Beyond Language Modeling (Insight 拉满)
从vision encoder, Architecture:MoE/Dense, multimodal data,world modeling,scaling laws of UMMs 等几个方面对Native multimodal pretraining 进行探索;
OpenMMLab
2 个月前
人工智能
·
大模型
·
多模态大模型
·
智能体
·
openclaw
Agent范式转移:组织、协作与商业的重构
作者:陈恺,上海人工智能实验室青年领军科学家,大模型中心负责人,在人工智能方向顶级会议和期刊上发表论文70多篇,谷歌学术引用超过3万次。
loong_XL
2 个月前
音视频
·
qwen
·
多模态大模型
qwen3.5 文字、图像、视频多模态openai接口案例
参考: https://qwen.ai/blog?id=qwen3.5
山顶夕景
2 个月前
llm
·
多模态大模型
·
vlm
【VLM】Qwen3-VL-SFT微调简要流程
1. alpaca-gpt4-data-zh (中文指令数据)2. la_te_x_ocr (LaTeX公式OCR)
InternLM
3 个月前
人工智能
·
大模型
·
多模态大模型
·
大模型推理
·
书生大模型
LMDeploy重磅更新:从支撑模型到被模型反哺,推理引擎迈入协同进化时代!
近期,上海人工智能实验室(上海AI实验室)大模型推理部署工具 LMDeploy 迎来重磅更新——v0.12+ 版本正式发布,进一步为社区带来更流畅、更可靠、更强大的大模型服务体验。
程序员学习Chat
3 个月前
多模态
·
多模态大模型
多模态-10 Qwen-VL
这篇文章开始介绍千问系列的VL多模态模型,包括Qwen-VL、Qwen2-VL、Qwen2.5-VL、Qwen3-VL
韦先波
3 个月前
内容审核
·
多模态大模型
·
glm-4.6v-flash-web
开源视觉大模型GLM-4.6V-Flash-WEB在内容审核中的应用探索
如今,社交媒体、电商平台和短视频平台每天产生数以亿计的图文内容。一张看似普通的图片配上特定文字,可能暗藏诱导、欺诈甚至违法信息;而合成图像、深度伪造技术的普及,更让传统审核手段频频失守。仅靠关键词过滤或独立的图像识别系统,早已无法应对这些“图文协同作案”的新型风险。
小草cys
3 个月前
人工智能
·
yolo
·
目标跟踪
·
多模态大模型
·
电气主接线图
qwen3-max识别电气主接线图,不需要yolo辅助
Qwen3-Max 是一个多模态大语言模型,其视觉模块(如 Qwen3-VL)具备强大的通用图像理解与推理能力。它可以:
盼小辉丶
3 个月前
深度学习
·
大模型
·
多模态大模型
数据不再“拖后腿”,EasyLink重塑非结构化数据处理新范式
在人工智能 (Artificial Intelligence, AI) 技术快速发展的今天,高质量的数据预处理已成为决定智能化成败的关键因素。EasyLink 通过创新的非结构化数据处理技术,能够将混乱的多模态数据转化为高质量的 AI 数据准备基础。在本文中,我们将深入探讨 EasyLink 如何通过创新技术架构,实现对复杂文档的语义级理解,对视频内容的结构化解析,以及对全量非结构化数据的端到端处理,并介绍 EasyLink 的技术优势。
AMiner:AI科研助手
3 个月前
扩散模型
·
多模态大模型
·
浙江大学
·
港中文
·
音频视频生成模型
NeurIPS 2025 Spotlight |新国立联合港中文发布JavisGPT:终结默片时代!
在通往通用人工智能(AGI)的征途中, 如何让机器像人类一样同时看懂画面、听懂声音,并进行连贯的视听创作,始终是多模态领域面临的巨大挑战。
张彦峰ZYF
4 个月前
人工智能
·
计算机视觉
·
多模态大模型
·
混合专家架构
·
大小模型协同架构
多模态大模型、混合专家模型与云端协同架构
目录一、多模态大模型(一)什么是多模态大模型(二)多模态大模型的核心技术1. 多模态表征与统一语义空间
Robot侠
4 个月前
人工智能
·
语言模型
·
自然语言处理
·
transformer
·
rag
·
多模态大模型
多模态大语言模型(Multimodal LLM)技术实践指南
本文从工程与研究双重视角梳理多模态 LLM 的关键模块、训练方案与推理要点,适合希望在 CSDN/博客平台记录经验的开发者参考。示意公式均以 LaTeX 格式呈现。
flying_1314
5 个月前
llm
·
对比学习
·
多模态大模型
·
icl
·
notellm
·
micl
·
late fusion
推荐大模型系列-NoteLLM-2: Multimodal Large Representation Models for Recommendation(二)
目录一、方法论模板说明视觉笔记表示多模态笔记表示后期融合关键点编辑二、实验2.1 性能评估2.2 增强型MLRM的显著性分数分析
flying_1314
5 个月前
llm
·
推荐系统
·
多模态大模型
·
mllms
·
mlrms
·
端到端训练
·
生成式大模型
推荐大模型系列-NoteLLM-2: Multimodal Large Representation Models for Recommendation(三)
目录一、训练细节二、端到端MLRM细节三、Qwen-VL-Chat的显著性分数分析传统MLLMs与MLRMs的适配问题
我很哇塞耶
5 个月前
人工智能
·
ai
·
大模型
·
多模态大模型
AAAI 2026 | 跨视频推理基准 CrossVid:给多模态大模型出一道“综合题”
小红书技术团队推出全面评估 MLLMs 跨视频推理能力的基准测试 CrossVid,目前测试代码与数据已完全开源。
阿杰学AI
5 个月前
人工智能
·
ai
·
语言模型
·
自然语言处理
·
aigc
·
多模态
·
多模态大模型
AI核心知识29——大语言模型之Multimodality(简洁且通俗易懂版)
多模态(Multimodality) 是大语言模型进化史上最重要的里程碑之一。如果说之前的 AI 是一个“虽然博学但又聋又瞎的哲学家”(只能读文字、写文字),那么多模态 AI 就意味着这个哲学家长出了眼睛、耳朵和嘴巴。