多模态

余俊晖1 天前
人工智能·ocr·多模态
多模态文档解析后处理开源模型:MinerU-Popo方案思路提升RAG性能目前各类的文档解析方案(VLM-OCR)都是基于【单页】文档进行解析,输出每页文字、表格、图片+坐标框,但存在4类跨页缺点:
汤姆yu5 天前
ai·大模型·多模态·智能体
原生一体化多模态大模型技术研究在生成式人工智能产业高速迭代背景下,传统拼接式多模态架构逐步遭遇融合深度不足、跨模态对齐困难、实时交互性能差等行业痛点,原生一体化多模态大模型成为 2025—2026 年人工智能核心技术发展方向。区别于 “文本大模型 + 独立视觉编码器 + 音频模型” 的分段拼接架构,原生一体化多模态依托统一 Transformer 基础架构,使用同一套模型参数、统一语义空间实现文本、图像、音频、视频、3D 点云、深度空间信息等全模态数据联合建模、同步编码与统一生成,从底层实现多模态信息深度耦合。依托统一表征空间,模型实
余俊晖6 天前
人工智能·自然语言处理·多模态
推理驱动的生成式通用多模态嵌入框架-UME-R1VLM2Vec, MM-Embed等模型均为判别式:直接提取输入最后一个 token 的隐层状态作为嵌入,不生成新 token,无法利用 MLLM 的推理能力。UME-R1 提出生成式多模态嵌入,让模型先推理、再总结、最后生成嵌入,同时保留判别式嵌入能力。
袋鼠云数栈6 天前
大数据·数据结构·数据库·人工智能·数据治理·多模态
数栈 V7.0 多模态数据智能平台:打造 AI-Ready 的企业数据底座2026 袋鼠云春季数智发布会上,袋鼠云正式发布数栈 V7.0。作为数栈面向 AI 时代的一次重要大版本升级,V7.0 将产品定位从 “大数据开发与治理平台” 进一步升级为 AI-Ready 的多模态数据智能平台,围绕结构化、半结构化、非结构化数据的统一采集、存储、开发、治理、检索、服务与智能调用,帮助企业构建面向 AI 应用规模化落地的新一代数据智能基础设施。
程序大视界9 天前
人工智能·架构·多模态
AI多模态大模型技术全景(2026):从“拼接“到“原生统一“,一文读懂底层架构与主流方案技术深度 | 预计阅读时间:8分钟 本文面向有一定AI基础的开发者和技术爱好者,系统梳理多模态大模型的技术演进、架构设计、主流方案对比,以及2026年最新动态。
这是谁的博客?13 天前
ai·transformer·多模态·clip·视觉语言模型·vit·llava
多模态大模型技术深度解析:从 CLIP 到 LLaVA 的视觉语言融合原理本文深入剖析多模态大模型的核心技术体系,涵盖 CLIP 对比语言-图像预训练的架构设计与训练机制、ViT 视觉 Transformer 的图像 Patch 编码原理、LLaVA 视觉语言模型的跨模态投影层设计,以及多模态融合策略对比。通过源码级分析揭示视觉编码器与大语言模型的衔接机制,帮助开发者掌握构建多模态 AI 应用的关键技术。
晓山清14 天前
人工智能·大模型·多模态·综述
【大模型入门系列】之多模态大模型综述参考:MM-LLMs综述、TBD 敬请期待
feasibility.16 天前
人工智能·深度学习·计算机视觉·llm·图像分割·多模态·vlm
Qwen3-VL-Seg 深度解读:当多模态大模型学会“像素级精准手术“论文: Qwen3-VL-Seg: Unlocking Open-World Referring Segmentation with Vision-Language Grounding
这是谁的博客?18 天前
ai·google·架构·大模型·多模态·视频生成·gemini
[模型解析] Gemini: 多模态技术架构深度解析Google 在 2026 年 I/O 大会上发布了 Gemini 3.5 和 Gemini Omni,标志着多模态 AI 进入全新的发展阶段。本文将从技术架构角度深入解析 Gemini 的多模态能力设计。
阿里云大数据AI技术20 天前
大数据·人工智能·阿里云·多模态·maxcompute
从图片到声音、视频:MaxCompute MaxFrame 多模态算子模块,让海量多模态数据_跑_起来当大模型的胃口越来越大,“喂数据"这件事,比训练模型本身还难。MaxFrame 用一行 Python 代码,让图片、音频、视频这些"难啃的骨头”,从此分布式起飞。
给算法爸爸上香1 个月前
大模型·多模态·qwen-vl·tensorrt-llm
tensorrt-llm部署Qwen-VL首先搭建环境(略)并下载好huggingface的Qwen2-VL-2B-Instruct模型。 测试代码:
feasibility.1 个月前
人工智能·llm·多模态·量化·llama.cpp·vlm·llama-factory
多模态模型Qwen-3.5在Llama-Factory使用+llama.cpp量化导出+部署流程(含报错处理)可以去huggingface或hf-mirror镜像站等下载Qwen3.5的模型,比如https://huggingface.co/Qwen/Qwen3.5-0.8B/tree/main 或https://hf-mirror.com/Qwen/Qwen3.5-0.8B/tree/main下载模型相关文件,保存到合适路径,比如/Users/Zhuanz/Desktop/work/Qwen3.5/model
小马过河R1 个月前
人工智能·语言模型·大模型·llm·agent·ai编程·多模态
从官方定义读懂智能体的时代分量2026年5月,国家网信办、国家发展改革委、工业和信息化部联合印发《智能体规范应用与创新发展实施意见》,首次以官方文件形式明确:“智能体(Agent)是具备自主感知、记忆、决策、交互与执行能力的智能系统,是人工智能产品及服务的重要形态”。这一定义不仅是对智能体技术属性的精准概括,更标志着我国人工智能产业发展进入了全新阶段,其影响将渗透到技术研发、产业布局、社会治理乃至生活方式的方方面面。
YJlio1 个月前
人工智能·chatgpt·aigc·多模态·语音交互·ai工具·图像理解
2023-09-25:ChatGPT 从纯文本走向多模态交互,看、听、说能力意味着什么?2023 年 9 月 25 日,ChatGPT 迎来了一个非常重要的能力节点:开始逐步支持“看、听、说”能力。
weisian1511 个月前
人工智能·langchain·多模态
进阶篇-LangChain篇-25--不止于文本:LangChain多模态应用开发作者:Weisian 发布时间:2026年4月直击痛点:“用户:‘这个图表是什么意思?我看不懂。’ AI:‘很抱歉,我是一个纯文本模型,无法识别图片。’ 用户:‘那我描述给你听:有一张柱状图,左边是…’ AI:‘请更详细地描述…’ 用户:‘算了,我放弃了。’——这就是纯文本AI的‘盲人’困境。”
G皮T1 个月前
人工智能·ai·agent·多模态·具身智能·skill·openclaw
【人工智能】小镇AI助手诞生记(一文记住40+新兴技术名词)在一个叫“智慧谷”的小镇,镇长打算开发一个AI助手,让它能看懂文字、听懂话、还能看懂图纸和照片——这就叫多模态模型。
Zik----1 个月前
人工智能·python·多模态
CILP模型讲解原论文链接:https://arxiv.org/abs/2103.00020 原论文的框架图展示了分为三大阶段:
绵满1 个月前
推荐系统·多模态
"Deconfounding Duration Bias in Watch-time Prediction for Video Recommendation" 论文笔记观看时长(watch time)是视频推荐中的重要指标之一,提升整体观看时长是视频推荐系统的主要目标。观看时长主要受两个因素的影响:用户是否对视频感兴趣、视频本身的时长(duration)
feasibility.1 个月前
人工智能·科技·语言模型·aigc·多模态·具身智能·世界模型
思想之光照见本源:AI 感官全域觉醒进化史2017年,一篇题为《Attention Is All You Need》的论文悄然出现,它提出的Transformer架构如一道简洁而深刻的数学咒语,解开了序列数据的终极密码。这并非一次普通的技术迭代,而是一场认知的觉醒。就像DNA的双螺旋结构揭示了生命复制的秘密,注意力机制揭示了信息理解的秘密,为机器赋予了阅读世界的能力。