多模态

大鱼>12 天前
物联网·struts·语言模型·多模态·aiot
大语言模型+物联网:LLM理解物理世界当LLM学会了"看"传感器数据、"听"设备告警、“说"控制指令,物联网就从"自动化"进化到了"智能化”。这不是科幻,而是正在发生的技术融合。
虎妞050015 天前
ai·多模态·视觉·gpt-4v·llava
多模态大模型应用指南:从 GPT-4V 到开源方案2023 年 GPT-4V 的发布标志着 AI 从纯文本走向多模态。多模态大模型能够同时理解文本、图像、视频、音频,开启了一系列革命性场景。
汤姆yu15 天前
大数据·人工智能·算法·ai·大模型·多模态·智能体
云知声 U2 原生智能体大模型深度解析2026 年 6 月 8 日,港股 AGI 第一股云知声(Unisound)正式发布新一代通用大语言模型U2,定位为 “天生为执行而生的原生 Agent 大模型”。U2 跳出行业盲目堆叠参数、比拼输出长度的内卷路径,以 “高智能密度 × 高 Token 价值” 为核心主张,重构大模型效率与商业价值,在权威评测中跻身国产大模型第一梯队,成为兼顾强能力、低成本、易落地的标杆级产品。以下从核心定位、技术架构、性能表现、核心能力、应用场景、定价策略与行业价值七大维度,全面解析这款里程碑式国产模型。
kishu_iOS&AI16 天前
人工智能·语音识别·多模态
LLM —— 多模态(文本、图片、音频、视频)目录一、什么是多模态二、常见模态分类三、多模态原理单模态 vs 多模态四、文本五、图片核心原理:流程:
troubles maker17 天前
llm·nlp·llama·多模态
LLaMA-Adapter V2: Parameter-Efficient Visual Instruction Model论文链接:https://arxiv.org/pdf/2304.15010大语言模型(Large Language Model,LLM)的落地应用中,轻量化微调是平衡性能、算力与部署成本的核心技术路线。相较于全参数微调、低秩自适应(Low-rank adaptation,LoRA)[1] 等主流方案,Adapter 架构以模块化、高兼容性的特点,被广泛应用于 LLaMA[2] 等开源大模型的下游迁移任务。
君为先-bey19 天前
计算机视觉·多模态·扩散模型·视频生成
UniVidX——基于扩散先验的统一多模态视频生成框架UniVidX: A Unified Multimodal Framework for Versatile Video Generation via Diffusion Priors
HyperAI超神经20 天前
人工智能·3d·大模型·多模态·空间推理·3d感知·3d理解
深度估计准确率冲上0.9,Meta提出VLM³,论证视觉模型天生会学3D,以Qwen3-VL-4B为基础实现多任务的统一建模三维空间感知是自动驾驶、机器人、三维重建等领域的核心基础能力,其目标是从二维图像中恢复真实世界的空间结构、尺度信息与几何关系。与图像分类、目标检测等二维视觉任务相比,三维感知不仅要求语义理解能力,还需要精确的空间推理与几何建模,因此长期以来被视为计算机视觉领域最具挑战性的研究方向之一。
余俊晖21 天前
人工智能·ocr·多模态
多模态文档解析后处理开源模型:MinerU-Popo方案思路提升RAG性能目前各类的文档解析方案(VLM-OCR)都是基于【单页】文档进行解析,输出每页文字、表格、图片+坐标框,但存在4类跨页缺点:
汤姆yu25 天前
ai·大模型·多模态·智能体
原生一体化多模态大模型技术研究在生成式人工智能产业高速迭代背景下,传统拼接式多模态架构逐步遭遇融合深度不足、跨模态对齐困难、实时交互性能差等行业痛点,原生一体化多模态大模型成为 2025—2026 年人工智能核心技术发展方向。区别于 “文本大模型 + 独立视觉编码器 + 音频模型” 的分段拼接架构,原生一体化多模态依托统一 Transformer 基础架构,使用同一套模型参数、统一语义空间实现文本、图像、音频、视频、3D 点云、深度空间信息等全模态数据联合建模、同步编码与统一生成,从底层实现多模态信息深度耦合。依托统一表征空间,模型实
余俊晖1 个月前
人工智能·自然语言处理·多模态
推理驱动的生成式通用多模态嵌入框架-UME-R1VLM2Vec, MM-Embed等模型均为判别式:直接提取输入最后一个 token 的隐层状态作为嵌入,不生成新 token,无法利用 MLLM 的推理能力。UME-R1 提出生成式多模态嵌入,让模型先推理、再总结、最后生成嵌入,同时保留判别式嵌入能力。
袋鼠云数栈1 个月前
大数据·数据结构·数据库·人工智能·数据治理·多模态
数栈 V7.0 多模态数据智能平台:打造 AI-Ready 的企业数据底座2026 袋鼠云春季数智发布会上,袋鼠云正式发布数栈 V7.0。作为数栈面向 AI 时代的一次重要大版本升级,V7.0 将产品定位从 “大数据开发与治理平台” 进一步升级为 AI-Ready 的多模态数据智能平台,围绕结构化、半结构化、非结构化数据的统一采集、存储、开发、治理、检索、服务与智能调用,帮助企业构建面向 AI 应用规模化落地的新一代数据智能基础设施。
程序大视界1 个月前
人工智能·架构·多模态
AI多模态大模型技术全景(2026):从“拼接“到“原生统一“,一文读懂底层架构与主流方案技术深度 | 预计阅读时间:8分钟 本文面向有一定AI基础的开发者和技术爱好者,系统梳理多模态大模型的技术演进、架构设计、主流方案对比,以及2026年最新动态。
这是谁的博客?1 个月前
ai·transformer·多模态·clip·视觉语言模型·vit·llava
多模态大模型技术深度解析:从 CLIP 到 LLaVA 的视觉语言融合原理本文深入剖析多模态大模型的核心技术体系,涵盖 CLIP 对比语言-图像预训练的架构设计与训练机制、ViT 视觉 Transformer 的图像 Patch 编码原理、LLaVA 视觉语言模型的跨模态投影层设计,以及多模态融合策略对比。通过源码级分析揭示视觉编码器与大语言模型的衔接机制,帮助开发者掌握构建多模态 AI 应用的关键技术。
晓山清1 个月前
人工智能·大模型·多模态·综述
【大模型入门系列】之多模态大模型综述参考:MM-LLMs综述、TBD 敬请期待
feasibility.1 个月前
人工智能·深度学习·计算机视觉·llm·图像分割·多模态·vlm
Qwen3-VL-Seg 深度解读:当多模态大模型学会“像素级精准手术“论文: Qwen3-VL-Seg: Unlocking Open-World Referring Segmentation with Vision-Language Grounding
这是谁的博客?1 个月前
ai·google·架构·大模型·多模态·视频生成·gemini
[模型解析] Gemini: 多模态技术架构深度解析Google 在 2026 年 I/O 大会上发布了 Gemini 3.5 和 Gemini Omni,标志着多模态 AI 进入全新的发展阶段。本文将从技术架构角度深入解析 Gemini 的多模态能力设计。
阿里云大数据AI技术1 个月前
大数据·人工智能·阿里云·多模态·maxcompute
从图片到声音、视频:MaxCompute MaxFrame 多模态算子模块,让海量多模态数据_跑_起来当大模型的胃口越来越大,“喂数据"这件事,比训练模型本身还难。MaxFrame 用一行 Python 代码,让图片、音频、视频这些"难啃的骨头”,从此分布式起飞。
给算法爸爸上香2 个月前
大模型·多模态·qwen-vl·tensorrt-llm
tensorrt-llm部署Qwen-VL首先搭建环境(略)并下载好huggingface的Qwen2-VL-2B-Instruct模型。 测试代码:
feasibility.2 个月前
人工智能·llm·多模态·量化·llama.cpp·vlm·llama-factory
多模态模型Qwen-3.5在Llama-Factory使用+llama.cpp量化导出+部署流程(含报错处理)可以去huggingface或hf-mirror镜像站等下载Qwen3.5的模型,比如https://huggingface.co/Qwen/Qwen3.5-0.8B/tree/main 或https://hf-mirror.com/Qwen/Qwen3.5-0.8B/tree/main下载模型相关文件,保存到合适路径,比如/Users/Zhuanz/Desktop/work/Qwen3.5/model