多模态

商汤万象开发者1 天前
人工智能·科技·算法·开源·多模态
LazyLLM教程 | 第13讲:RAG+多模态:图片、表格通吃的问答系统在前面的课程中,我们探讨了 RAG(Retrieval-Augmented Generation)的基本原理及其在纯文本处理中的应用。RAG 通过从外部知识库检索相关信息,结合上下文生成更准确、信息丰富的回答,从而提升基于文本的问答系统能力。
X.Cristiano3 天前
ocr·多模态·视觉压缩
DeepSeek-OCR和Glyph用视觉压缩思路对比大语言模型(LLM)在处理长文档时,普遍面临“计算开销随文本长度平方级增长”的瓶颈。为破解这一难题,视觉压缩 成为了一条富有前景的新路径——不再单纯依赖文本Token,而是将文本转换为图像,利用视觉编码器进行高效压缩。
小花皮猪3 天前
人工智能·多模态·ai代理·aeo
多模态 AI 时代的数据困局与机遇,Bright Data 赋能LLM 训练以及AEO场景单纯依赖文本训练的 LLM 时代正在落幕,多模态 AI 时代已经到来,在LLM训练中,尤其是多模态数据,已经成为 AI 大模型竞赛的核心战场。当无数 AI 团队和研究机构踏入多模态数据采集领域时,却发现自己面临着前所未有的困局:
rengang667 天前
java·人工智能·spring·多模态·spring ai·ai应用编程
352-Spring AI Alibaba OpenAI DashScope 多模态示例本示例演示如何通过 Spring AI 的 OpenAI 客户端接口调用阿里云 DashScope 的多模态模型(如 qwen-vl-max-latest),实现图片分析功能。虽然依赖了 Spring AI 的 OpenAI 模块,但底层实际调用的是 DashScope 的兼容模式接口。
rengang668 天前
java·人工智能·spring·多模态·spring ai·ai应用编程
353-Spring AI Alibaba ARK 多模型示例本示例将展示如何使用 Spring AI Alibaba 集成 ARK 多模型能力,实现图像理解、视频内容分析等多模态 AI 功能。ARK 是字节跳动提供的大模型服务平台,支持多种 AI 模型能力。
rengang669 天前
java·人工智能·spring·多模态·spring ai·ai应用编程
351-Spring AI Alibaba Dashscope 多模型示例本示例演示了如何使用 Spring AI Alibaba Starter 与 Dashscope 的多模态服务,实现图像识别、视频分析和音频处理功能。
熊猫钓鱼>_>11 天前
ai·typescript·多模态·仓颉·cangjie·智能推荐系统·强类型
仓颉语言:智能应用开发的新范式目录1. 引言2. 仓颉语言的核心特性强类型系统并发与异步支持AI原生设计跨设备协同3. 智能应用开发实践
熊猫钓鱼>_>13 天前
自动化·llm·多模态·模板·rag·垂直领域
基于模板提高垂直领域大模型应用场景的文字语言组织准确性随着人工智能技术的快速发展,大语言模型(LLM)在各垂直领域的应用日益广泛。然而,通用大模型在特定专业场景中往往面临语言准确性、格式规范性和专业术语一致性等挑战。本文深入探讨如何通过模板工程提升垂直领域大模型应用的语言组织准确性,并结合检索增强生成(RAG)技术进一步增强报告生成能力。
何如千泷15 天前
论文阅读·大模型·多模态·1024程序员节
【论文阅读】Qwen2.5-VL Technical Report论文链接:https://arxiv.org/pdf/2502.13923Code: https://github.com/QwenLM/Qwen3-VL
暖阳之下15 天前
学习·多模态·1024程序员节
学习周报十九本周深入研究了混合专家模型(MoE)的核心原理与Stable Diffusion的图像生成机制。系统分析了MoE架构中稀疏层与门控网络的协同工作机制,详细解析了动态路由策略、负载均衡优化及辅助损失函数设计;全面掌握了Stable Diffusion的完整工作流程,包括CLIP文本编码、U-Net噪声预测、VAE隐空间压缩等关键技术环节。通过理论推导与架构分析,建立了从大模型参数效率优化到生成式模型原理的深度认知框架。
是Dream呀16 天前
图像处理·人工智能·aigc·agi·多模态·合合信息
PRCV 2025:文本何以成为 AGI 的必经之路?本文目录:一、从"看见"到"读懂"的认知跨越1.重新定义"文本"的边界2.三层架构支撑全链路智能二、底层视觉处理
wanzhong233317 天前
深度学习·ocr·多模态·deepseek
Deepseek-ocr论文精读Deepseek这项工作终于填补了长期以来只能纯文本输入的空白!给出了几个重要信息下图其他模型的在基准测试中对比,出手就是王炸,deepseek-ocr系列包揽了整个外围,类似机器学习的AUC图像,面积越大,模型性能越好。这个模型在各个token量级下的表现都是显著高于其他模型的。牛逼就完了。
TGITCIC22 天前
人工智能·开源·多模态·ai大模型·开源大模型·视觉模型·大模型ai
LLaVA-OV:开源多模态的“可复现”革命,不只是又一个模型在大模型狂飙突进的今天,开源社区似乎陷入一种奇特的悖论:模型权重免费公开,但真正能复现结果的人寥寥无几。你下载一个号称“SOTA”的多模态模型,跑起来却发现效果平平;想自己训练?数据来源模糊、训练脚本缺失、超参配置像谜语——开源成了“半开源”,复现成了玄学。这种困境,在视觉语言模型(VLM)领域尤为突出。
余俊晖22 天前
人工智能·算法·剪枝·多模态
多模态文档理解视觉token剪枝思路多模态大模型VLMs视觉token数量多会影响推理的计算性能,也有相关工作在token压缩上进行了研究,如往期:
桃子叔叔23 天前
人工智能·大模型·多模态
从0到1讲解大模型中的关键步骤(一)分词、词性标注、命名实体识别分词是将连续的文本序列切分成有意义的词汇单元的过程,是自然语言处理的基础步骤。最大正向匹配 (Maximum Forward Matching)
Xxtaoaooo25 天前
人工智能·架构·分布式训练·多模态·模型优化
原生多模态AI架构:统一训练与跨模态推理的系统实现与性能优化人们眼中的天才之所以卓越非凡,并非天资超人一等而是付出了持续不断的努力。1万小时的锤炼是任何人从平凡变成超凡的必要条件。———— 马尔科姆·格拉德威尔
oe10191 个月前
人工智能·笔记·去中心化·多模态
好文与笔记分享 Paris, A Decentralized Trained Open-Weight Diffusion Model简介 最近,一篇名为《Paris: A Decentralized Trained Open-Weight Diffusion Model》的论文在引起了我的关注。我在简单研读其代码和关联工作(DDM, DiT)后,想以开发者的视角,与各位一同拆解Paris论文,分享我们从中学到的经验。技术的进步始于敏锐的观察与开放的交流,希望本文能成为一块引玉之砖。
AI生成未来1 个月前
多模态·扩散模型·图像生成
统一高效图像生成与编辑!百度&新加坡国立提出Query-Kontext,多项任务“反杀”专用模型论文链接:https://arxiv.org/pdf/2509.26641亮点直击Query-Kontext,一种经济型集成多模态模型(UMM),能够将视觉语言模型(VLMs)中的多模态生成推理与扩散模型执行的高保真视觉渲染相分离。
山顶夕景1 个月前
大模型·llm·多模态·mllm
【MLLM】Qwen3-Omni全模态模型源码解读Qwen3-Omni-MoE代码实现可以理解为三层拼装:最终的统一入口是 Qwen3OmniMoeForConditionalGeneration.generate(),既能只出文本,也能同时出文本+音频;文本/音频两路的采样参数还可以分别设置(以 thinker_*/talker_* 参数前缀区分)。([Hugging Face][1])
Carl_奕然1 个月前
人工智能·python·语言模型·prompt·多模态
【大模型】Agent之:从Prompt到Context的演进之路小屌丝:鱼哥,国庆假期去哪啊? 小鱼:哪也不去啊 小屌丝:哎呦呦 ~ 哎呦呦~ 小鱼:饭菜很热? 小屌丝:不热啊,温度正好 小鱼:我还以为这饭菜热,烫到你嘴呢。 小屌丝:那倒没有 小鱼:没有,你哎呦呦啥? 小屌丝:你这十一期间哪也不去,我很是意外,不是你的性格 小鱼:人嘛~ 总是要陪陪家人的嘛 小屌丝:呀~ 鱼哥,你变了 小鱼:你指的是我的颜值吗? 小屌丝:看图