多模态

喜欢吃豆40 分钟前
人工智能·架构·大模型·多模态·ai销售陪练
下一代 AI 销售陪练系统的架构蓝图与核心技术挑战深度研究报告随着生成式人工智能(Generative AI)和大语言模型(LLM)的突破性进展,销售赋能(Sales Enablement)领域正经历一场从静态脚本向动态仿真演进的范式转移。传统的销售培训依赖于固定的角色扮演脚本或人工陪练,存在成本高、反馈滞后、场景有限等弊端。现代 AI 销售陪练系统(AI Sales Coach)旨在构建一个具备高情商、实时反应能力且能够严格遵循销售方法论(如 MEDDIC、SPIN)的虚拟对练伙伴。
何如千泷1 小时前
多模态·qwenvl
Qwen2.5-VL模型架构解读——数据处理部分输入数据:Qwen2.5-VL中swift/llm/template/template/qwen.py用于将文本和图像/视频输入联合编码(tokenize + 媒体预处理)的 _encode 方法实现。其主要目标是:
2401_841495643 小时前
人工智能·深度学习·自然语言处理·多模态·通用智能·规则驱动·认知智能
【自然语言处理】共生与引领:自然语言处理与人工智能的深度绑定与协同演进目录一、引言二、历史回溯:NLP与AI的同频共振,从萌芽到爆发2.1 萌芽期(1950s-1980s):AI奠基与NLP的初步探索
lpfasd12317 小时前
语言模型·agent·多模态
多模态多Agent智能助手系统完整方案汇总一个具备“感知-思考-执行-创造”能力的通用智能体,可作为:示例场景:💡 混合部署建议:日常对话用本地模型,关键任务(如高清图生成)调用云API
庄周迷蝴蝶1 天前
人工智能·多模态
Flaminggo目录1、摘要2、引言3、方法3.1 视觉处理和感知器重采样器3.1.1 视觉编码器:从像素到特征3.1.2 感知器重采样器:从不同大小的大型特征映射到少数视觉token
youcans_2 天前
论文阅读·人工智能·大语言模型·多模态·眼底图像
【医学影像 AI】FunBench:评估多模态大语言模型的眼底影像解读能力更多内容请关注【医学影像 AI by youcans@Xidian 专栏】2025 年 Qijie Wei 等在 MICCAI 2025 发表论文 “FunBench: Benchmarking Fundus Reading Skills of MLLMs(FunBench:评估多模态大语言模型的眼底影像解读能力)”。
赋范大模型技术社区4 天前
多模态·rag·以图搜图·混合检索·视频筛选
用 RAG 撬开多模态检索:从文本问答到以图搜图与视频筛选如果你以为 RAG 只是“把文档切块塞进向量库,然后用大模型回答”,那你可能正陷在检索不准、回答幻觉、多模态无解的泥潭里。真正的 RAG,是一套精密的检索-生成流水线,它能处理的不止是文本,还有海量的图片与视频。
一个无名的炼丹师6 天前
人工智能·python·pdf·多模态·rag
[硬核实战] 解锁多模态RAG:构建能“看懂”PDF复杂图表的智能问答系统摘要:在企业级 RAG(检索增强生成)落地过程中,我们往往面临一个棘手难题:高价值信息不仅存在于文本中,更大量隐藏在 PDF 的表格、架构图和统计图表里。传统的“纯文本”RAG 对此束手无策。本文将带你从零构建一个多模态 RAG 系统,整合 Unstructured 解析、CLIP 跨模态嵌入、向量数据库及 GPT-4o/Llava,实现对复杂文档的深度理解与问答。
深度之眼7 天前
深度学习·机器学习·多模态
入选TPAMI顶刊!多模态图像融合新突破!最近在IEEE TPAMI上刷到了不少关于多模态图像融合的研究,比较亮眼的就有FreeFusion,一种红外与可见光图像融合方法,以及SFINet及改进版SFINet++(见下文)。
七夜zippoe7 天前
架构·大模型·多模态·向量检索·clip
多模态模型实践 - 图文跨模态检索实战教程目录摘要1 引言:多模态检索的时代价值与挑战2 技术原理:跨模态检索的架构设计2.1 核心架构设计理念
Yeliang Wu10 天前
微调·多模态·训练·ms-swift
基于ms-swift框架微调多模态模型(Ubuntu22.04)作者:吴业亮 博客:wuyeliang.blog.csdn.net本文从核心原理到实操步骤,完整讲解基于微软ms-swift(ModelScope Swift)框架在Ubuntu22.04系统上微调多模态模型(如Qwen-VL、LLaVA、MiniCPM-V等)的全流程。
七夜zippoe11 天前
ocr·多模态·gpt-4v·核心算法·甲骨
多模态模型实践 - 使用GPT-4V构建多模态应用目录摘要一、技术原理深度解析1.1 架构设计理念1.2 核心算法实现1.2.1 视觉编码器实现1.2.2 跨模态注意力机制
腾飞开源11 天前
人工智能·多模态·工具调用·spring ai·openai sdk·github models·示例控制器
27_Spring AI 干货笔记之 OpenAI SDK 聊天功能(官方支持)Spring AI 通过 OpenAI Java SDK 提供对 OpenAI 语言模型的支持,为 OpenAI 服务(包括 Microsoft Foundry 和 GitHub Models)提供了稳健且官方维护的集成方案。
程序员miki11 天前
人工智能·python·llm·多模态·vlm
多模态模型演变仅供学习参考监督学习:输入+模型+求损失(预测值,标签)自监督学习:输入+模型+求损失(预测值,输入中找标签)
腾飞开源12 天前
人工智能·ocr·多模态·springai·聊天模型·mistral ai·openai兼容
21_Spring AI 干货笔记之 Mistral AI 聊天Spring AI 支持来自 Mistral AI 的各种 AI 语言模型。您可以与 Mistral AI 的语言模型进行交互,并基于 Mistral 模型创建多语言对话助手。
余俊晖13 天前
人工智能·ocr·多模态
多模态文档智能解析模型进展-英伟达NVIDIA-Nemotron-Parse-v1.1往期相关:文档智能解析技术解析文档智能解析方案总结模型整体架构与mBART类似,遵循vision-encoder-decoder架构,这点和之前字节开源的dolphin架构类似。
余俊晖13 天前
人工智能·ocr·多模态
多模态文档解析模型新进展:腾讯开源HunyuanOCR-0.9B模型架构、训练配方继续跟进《文档智能》,最近多模态的文档解析模型一个接一个开源《文档智能解析方案总结进展更新(含ocr-pipline、layout+VLM+纯多模态端到端解析)》。下面继续看看腾讯开源的HunyuanOCR。HunyuanOCR的OCR任务(文本检测与识别、文档解析、信息提取与视觉问答、文本图像翻译)。
Keep_Trying_Go13 天前
人工智能·pytorch·python·深度学习·transformer·多模态·目标统计
基于Transformer的目标统计方法(CounTR: Transformer-based Generalised Visual Counting)视频讲解1:Bilibili视频讲解视频讲解2:https://www.douyin.com/video/7580616343997648179
陪我一起学编程14 天前
大模型·openai·多模态·swarm·智能体·智能体应用开发·智能体应用部署
Swarm框架智能体应用开发与部署本文面向智能体开发初学者,以“理论+可运行代码”形式循序渐进讲解OpenAI Swarm框架。内容涵盖核心概念、环境搭建、基础使用、智能体开发及企业级部署,所有代码基于GPT系列模型编写,可直接复现。
小龙14 天前
多模态·模态融合·理论知识
多模态融合实战步骤数据收集:按模态分类收集相关数据(如图像、文本、音频),确保数据关联性(如同一实体的不同表示)质量检查: