多模态大模型

SimpleLearingAI8 天前
人工智能·算法·多模态大模型
PyTorch & Numpy 实现线性回归详解线性回归是机器学习入门最经典的算法,核心是拟合出一条最优直线(高维场景为超平面),让模型预测值与真实值误差最小。本文分别使用 Numpy(手动梯度) 和 PyTorch(自动求导) 实现梯度下降版线性回归,对比两种实现思路与差异。
EDPJ14 天前
计算机视觉·cot·多模态大模型·思维链·mllm
(2025|ICML|普林斯顿 & NYU,MLLM,思维链/ CoT)思维链会降低需要思考才能完成的任务的完成效率,这在人类身上表现得尤为明显论文地址:https://arxiv.org/abs/2410.21333项目页面:https://github.com/JiayiGeng/CoT_overthinking
百度智能云技术站19 天前
负载均衡·dp·多模态大模型
多模态模型训练加速,LoongForge 的 DP 负载均衡优化方案详解官方网页地址:https://baidu-baige.github.io/LoongForge/GitHub 地址:https://github.com/baidu-baige/LoongForge
SimpleLearingAI22 天前
多模态大模型
大模型数值格式总结大模型常用的数值格式主要分为两大类:浮点格式(遵循IEEE标准,由符号位+指数位+尾数位组成,原生存储小数)和整数量化格式(无指数位,通过将小数映射为固定区间整数来实现压缩)。
Resistance丶未来1 个月前
人工智能·ai·语言模型·自然语言处理·nlp·多模态大模型·ai工具
从零构建大语言模型:核心原理与实战落地在动手构建大语言模型之前,很多开发者往往被庞大的参数量和复杂的架构图劝退,觉得这必须是顶级实验室才能触碰的领域。但实际上,剥离掉工业级的工程外壳,大模型的核心骨架其实由几个清晰且优雅的数学模块组成。当你真正尝试从零开始,用几百行代码复现一个微型模型时,那种对“智能”如何从数据中涌现的理解,远比直接调用 API 来得深刻。
audyxiao0011 个月前
人工智能·深度学习·多模态大模型
智能交通顶刊TITS论文分享|一种基于文本提示引导的多模态大语言模型的交通流预测框架本文分享了一篇2026年智能交通顶级期刊IEEE Transactions on Intelligent Transportation Systems(TITS)接收的论文《Emergency Events Traffic Flow Forecasting Using Text-Prompt-Guided Multimodal Large Language Models》。该论文针对城市交通中突发事件导致常规预测模型失效的痛点,提出了一种名为TPGM-LLM的预测框架。该框架通过大语言模型将突发事件的文本
_张一凡2 个月前
aigc·面试面经·多模态大模型·qwen3
【AIGC面试面经第七期】多模态大模型Qwen-Vl系列面试问题汇总1、Qwen-VL系列视觉编码器的核心演进路径及每代解决的问题? 2、Qwen2-VL中提出的M-RoPE如何统一处理文本、图像和视频的位置编码? 3、Qwen-VL系列模型的三阶段训练范式的具体运作机制与各阶段数据策略? 4、Qwen2.5-VL使用绝对位置坐标相比归一化坐标在目标检测中的优势? 5、Qwen2.5-VL使用动态FPS采样与3D patch划分如何协同提升视频理解? 6、Qwen2.5-VL后训练阶段如何结合监督微调(SFT)和直接偏好优化(DPO)? 7、Qwen-VL系列模型中多模态
羊小猪~~2 个月前
大模型·llm·nlp·多模态·多模态大模型·vit·ai算法
LLM--VIT简介论文精度视频:VIT论文精度,这里做简要概述CNN神经网络是ai算法中最重要,最经典的算法之一,在vit出现之前,Resnet模型一直都是最好的视觉模型;当然CNN也不是没有缺点,其中有两个典型的缺点:局部性和平移不变性。
@BangBang3 个月前
多模态大模型
双向注意力(Bidirectional Attention)详解双向注意力是同时建模两个序列之间双向信息流动的注意力机制,广泛应用于机器翻译、问答系统、多模态融合等任务。以下是深度解析:
M宝可梦3 个月前
人工智能·多模态大模型·scaling law·统一理解生成模型
谢赛宁 x LeCun x Meta 多模态新作:Beyond Language Modeling (Insight 拉满)从vision encoder, Architecture:MoE/Dense, multimodal data,world modeling,scaling laws of UMMs 等几个方面对Native multimodal pretraining 进行探索;
OpenMMLab3 个月前
人工智能·大模型·多模态大模型·智能体·openclaw
Agent范式转移:组织、协作与商业的重构作者:陈恺,上海人工智能实验室青年领军科学家,大模型中心负责人,在人工智能方向顶级会议和期刊上发表论文70多篇,谷歌学术引用超过3万次。
loong_XL4 个月前
音视频·qwen·多模态大模型
qwen3.5 文字、图像、视频多模态openai接口案例参考: https://qwen.ai/blog?id=qwen3.5
山顶夕景4 个月前
llm·多模态大模型·vlm
【VLM】Qwen3-VL-SFT微调简要流程1. alpaca-gpt4-data-zh (中文指令数据)2. la_te_x_ocr (LaTeX公式OCR)
InternLM4 个月前
人工智能·大模型·多模态大模型·大模型推理·书生大模型
LMDeploy重磅更新:从支撑模型到被模型反哺,推理引擎迈入协同进化时代!近期,上海人工智能实验室(上海AI实验室)大模型推理部署工具 LMDeploy 迎来重磅更新——v0.12+ 版本正式发布,进一步为社区带来更流畅、更可靠、更强大的大模型服务体验。
程序员学习Chat4 个月前
多模态·多模态大模型
多模态-10 Qwen-VL这篇文章开始介绍千问系列的VL多模态模型,包括Qwen-VL、Qwen2-VL、Qwen2.5-VL、Qwen3-VL
韦先波4 个月前
内容审核·多模态大模型·glm-4.6v-flash-web
开源视觉大模型GLM-4.6V-Flash-WEB在内容审核中的应用探索如今,社交媒体、电商平台和短视频平台每天产生数以亿计的图文内容。一张看似普通的图片配上特定文字,可能暗藏诱导、欺诈甚至违法信息;而合成图像、深度伪造技术的普及,更让传统审核手段频频失守。仅靠关键词过滤或独立的图像识别系统,早已无法应对这些“图文协同作案”的新型风险。
小草cys5 个月前
人工智能·yolo·目标跟踪·多模态大模型·电气主接线图
qwen3-max识别电气主接线图,不需要yolo辅助Qwen3-Max 是一个多模态大语言模型,其视觉模块(如 Qwen3-VL)具备强大的通用图像理解与推理能力。它可以:
盼小辉丶5 个月前
深度学习·大模型·多模态大模型
数据不再“拖后腿”,EasyLink重塑非结构化数据处理新范式在人工智能 (Artificial Intelligence, AI) 技术快速发展的今天,高质量的数据预处理已成为决定智能化成败的关键因素。EasyLink 通过创新的非结构化数据处理技术,能够将混乱的多模态数据转化为高质量的 AI 数据准备基础。在本文中,我们将深入探讨 EasyLink 如何通过创新技术架构,实现对复杂文档的语义级理解,对视频内容的结构化解析,以及对全量非结构化数据的端到端处理,并介绍 EasyLink 的技术优势。
AMiner:AI科研助手5 个月前
扩散模型·多模态大模型·浙江大学·港中文·音频视频生成模型
NeurIPS 2025 Spotlight |新国立联合港中文发布JavisGPT:终结默片时代!在通往通用人工智能(AGI)的征途中, 如何让机器像人类一样同时看懂画面、听懂声音,并进行连贯的视听创作,始终是多模态领域面临的巨大挑战。
张彦峰ZYF5 个月前
人工智能·计算机视觉·多模态大模型·混合专家架构·大小模型协同架构
多模态大模型、混合专家模型与云端协同架构目录一、多模态大模型(一)什么是多模态大模型(二)多模态大模型的核心技术1. 多模态表征与统一语义空间