技术栈
多模态大模型
@BangBang
7 天前
多模态大模型
双向注意力(Bidirectional Attention)详解
双向注意力是同时建模两个序列之间双向信息流动的注意力机制,广泛应用于机器翻译、问答系统、多模态融合等任务。以下是深度解析:
M宝可梦
8 天前
人工智能
·
多模态大模型
·
scaling law
·
统一理解生成模型
谢赛宁 x LeCun x Meta 多模态新作:Beyond Language Modeling (Insight 拉满)
从vision encoder, Architecture:MoE/Dense, multimodal data,world modeling,scaling laws of UMMs 等几个方面对Native multimodal pretraining 进行探索;
OpenMMLab
9 天前
人工智能
·
大模型
·
多模态大模型
·
智能体
·
openclaw
Agent范式转移:组织、协作与商业的重构
作者:陈恺,上海人工智能实验室青年领军科学家,大模型中心负责人,在人工智能方向顶级会议和期刊上发表论文70多篇,谷歌学术引用超过3万次。
loong_XL
24 天前
音视频
·
qwen
·
多模态大模型
qwen3.5 文字、图像、视频多模态openai接口案例
参考: https://qwen.ai/blog?id=qwen3.5
山顶夕景
1 个月前
llm
·
多模态大模型
·
vlm
【VLM】Qwen3-VL-SFT微调简要流程
1. alpaca-gpt4-data-zh (中文指令数据)2. la_te_x_ocr (LaTeX公式OCR)
InternLM
1 个月前
人工智能
·
大模型
·
多模态大模型
·
大模型推理
·
书生大模型
LMDeploy重磅更新:从支撑模型到被模型反哺,推理引擎迈入协同进化时代!
近期,上海人工智能实验室(上海AI实验室)大模型推理部署工具 LMDeploy 迎来重磅更新——v0.12+ 版本正式发布,进一步为社区带来更流畅、更可靠、更强大的大模型服务体验。
程序员学习Chat
2 个月前
多模态
·
多模态大模型
多模态-10 Qwen-VL
这篇文章开始介绍千问系列的VL多模态模型,包括Qwen-VL、Qwen2-VL、Qwen2.5-VL、Qwen3-VL
韦先波
2 个月前
内容审核
·
多模态大模型
·
glm-4.6v-flash-web
开源视觉大模型GLM-4.6V-Flash-WEB在内容审核中的应用探索
如今,社交媒体、电商平台和短视频平台每天产生数以亿计的图文内容。一张看似普通的图片配上特定文字,可能暗藏诱导、欺诈甚至违法信息;而合成图像、深度伪造技术的普及,更让传统审核手段频频失守。仅靠关键词过滤或独立的图像识别系统,早已无法应对这些“图文协同作案”的新型风险。
小草cys
2 个月前
人工智能
·
yolo
·
目标跟踪
·
多模态大模型
·
电气主接线图
qwen3-max识别电气主接线图,不需要yolo辅助
Qwen3-Max 是一个多模态大语言模型,其视觉模块(如 Qwen3-VL)具备强大的通用图像理解与推理能力。它可以:
盼小辉丶
2 个月前
深度学习
·
大模型
·
多模态大模型
数据不再“拖后腿”,EasyLink重塑非结构化数据处理新范式
在人工智能 (Artificial Intelligence, AI) 技术快速发展的今天,高质量的数据预处理已成为决定智能化成败的关键因素。EasyLink 通过创新的非结构化数据处理技术,能够将混乱的多模态数据转化为高质量的 AI 数据准备基础。在本文中,我们将深入探讨 EasyLink 如何通过创新技术架构,实现对复杂文档的语义级理解,对视频内容的结构化解析,以及对全量非结构化数据的端到端处理,并介绍 EasyLink 的技术优势。
AMiner:AI科研助手
2 个月前
扩散模型
·
多模态大模型
·
浙江大学
·
港中文
·
音频视频生成模型
NeurIPS 2025 Spotlight |新国立联合港中文发布JavisGPT:终结默片时代!
在通往通用人工智能(AGI)的征途中, 如何让机器像人类一样同时看懂画面、听懂声音,并进行连贯的视听创作,始终是多模态领域面临的巨大挑战。
张彦峰ZYF
2 个月前
人工智能
·
计算机视觉
·
多模态大模型
·
混合专家架构
·
大小模型协同架构
多模态大模型、混合专家模型与云端协同架构
目录一、多模态大模型(一)什么是多模态大模型(二)多模态大模型的核心技术1. 多模态表征与统一语义空间
Robot侠
3 个月前
人工智能
·
语言模型
·
自然语言处理
·
transformer
·
rag
·
多模态大模型
多模态大语言模型(Multimodal LLM)技术实践指南
本文从工程与研究双重视角梳理多模态 LLM 的关键模块、训练方案与推理要点,适合希望在 CSDN/博客平台记录经验的开发者参考。示意公式均以 LaTeX 格式呈现。
flying_1314
3 个月前
llm
·
对比学习
·
多模态大模型
·
icl
·
notellm
·
micl
·
late fusion
推荐大模型系列-NoteLLM-2: Multimodal Large Representation Models for Recommendation(二)
目录一、方法论模板说明视觉笔记表示多模态笔记表示后期融合关键点编辑二、实验2.1 性能评估2.2 增强型MLRM的显著性分数分析
flying_1314
3 个月前
llm
·
推荐系统
·
多模态大模型
·
mllms
·
mlrms
·
端到端训练
·
生成式大模型
推荐大模型系列-NoteLLM-2: Multimodal Large Representation Models for Recommendation(三)
目录一、训练细节二、端到端MLRM细节三、Qwen-VL-Chat的显著性分数分析传统MLLMs与MLRMs的适配问题
我很哇塞耶
3 个月前
人工智能
·
ai
·
大模型
·
多模态大模型
AAAI 2026 | 跨视频推理基准 CrossVid:给多模态大模型出一道“综合题”
小红书技术团队推出全面评估 MLLMs 跨视频推理能力的基准测试 CrossVid,目前测试代码与数据已完全开源。
阿杰学AI
4 个月前
人工智能
·
ai
·
语言模型
·
自然语言处理
·
aigc
·
多模态
·
多模态大模型
AI核心知识29——大语言模型之Multimodality(简洁且通俗易懂版)
多模态(Multimodality) 是大语言模型进化史上最重要的里程碑之一。如果说之前的 AI 是一个“虽然博学但又聋又瞎的哲学家”(只能读文字、写文字),那么多模态 AI 就意味着这个哲学家长出了眼睛、耳朵和嘴巴。
七夜zippoe
4 个月前
多模态大模型
·
图像理解
·
推理优化
·
deepseek-vl2
·
自动文案生成
实战DeepSeek-VL2:实现图片内容理解与自动文案生成的完整流程
目录摘要1 技术原理与架构设计1.1 DeepSeek-VL2模型架构深度解析1.2 视觉-语言对齐机制
m0_65010824
4 个月前
论文阅读
·
人工智能
·
多模态大模型
·
gemini 2.5
·
跨模态融合
Gemini 2.5:重塑多模态 AI 边界的全面解读
Gemini 2.5 系列模型作为 Google DeepMind 推出的新一代 AI 模型家族,凭借在推理、多模态、长上下文处理及智能体能力上的突破性进展,重新定义了大语言模型的性能基准与应用边界。
数据堂官方账号
6 个月前
人工智能
·
计算机视觉
·
大模型
·
数据集
·
语音识别
·
语音合成
·
多模态大模型
版权数据集上新 | 覆盖大模型、多模态大模型、语音识别、语音合成及计算机视觉等多领域
近日,数据堂发布全新数据产品,覆盖多语种大模型预训练、多模态大模型、语音识别及计算机视觉等多个前沿方向。所有数据集经严格标注与质量控制,提供商业级使用授权且已获得科研使用许可,知识产权归属清晰可溯,可为企业及研发团队提供大规模、多样化、合规可靠的数据资源,有效助力大模型与AI技术迭代升级,赋能全球应用场景创新。