09_Spring AI 干货笔记之多模态

一、多模态 API

"所有自然相连的事物都应结合起来教授" - 约翰·阿摩司·康米纽斯,《世界图解》,1658年

人类通过多种数据输入模式同时处理知识。我们的学习方式和经历都是多模态的。我们不仅仅有视觉、听觉或文本。

与这些原理相反,机器学习过去常常专注于处理单一模态的专用模型。例如,我们开发了用于文本转语音或语音转文本任务的音频模型,以及用于目标检测和分类等任务的计算机视觉模型。

然而,新一代多模态大语言模型开始涌现。例如 OpenAI 的 GPT-4o、Google 的 Vertex AI Gemini 1.5、Anthropic 的 Claude3,以及开源产品 Llama3.2、LLaVA 和 BakLLaVA,它们能够接受多种输入(包括文本、图像、音频和视频),并通过整合这些输入来生成文本响应。

多模态大语言模型特性使模型能够处理文本并结合图像、音频或视频等其他模态生成文本。

二、Spring AI 多模态

多模态指的是模型同时理解和处理来自不同来源信息的能力,这些来源包括文本、图像、音频及其他数据格式。

Spring AI 消息 API 提供了支持多模态 LLM 所需的所有抽象。

UserMessage 的 content 字段主要用于文本输入,而可选的 media 字段允许添加一个或多个不同模态的附加内容,例如图像、音频和视频。MimeType 指定了模态类型。根据所使用的 LLM,Media 数据字段可以是作为 Resource 对象的原始媒体内容,也可以是指向内容的 URI。

目前 media 字段仅适用于用户输入消息(例如 UserMessage)。它对系统消息没有意义。包含 LLM 响应的 AssistantMessage 仅提供文本内容。要生成非文本媒体输出,您应使用专用的单模态模型。

例如,我们可以将以下图片(multimodal.test.png)作为输入,并要求 LLM 解释它所看到的内容。

对于大多数多模态 LLM,Spring AI 代码大致如下所示:

java 复制代码
var imageResource = new ClassPathResource("/multimodal.test.png");

var userMessage = UserMessage.builder()
    .text("Explain what do you see in this picture?") // 文本内容
    .media(new Media(MimeTypeUtils.IMAGE_PNG, this.imageResource)) // 媒体内容
    .build();

ChatResponse response = chatModel.call(new Prompt(this.userMessage));

或者使用流式的 ChatClient API:

java 复制代码
String response = ChatClient.create(chatModel).prompt()
		.user(u -> u.text("Explain what do you see on this picture?")
				    .media(MimeTypeUtils.IMAGE_PNG, new ClassPathResource("/multimodal.test.png")))
		.call()
		.content();

并产生类似以下的响应:

这是一个带有简单设计的水果碗图片。碗由金属制成,带有弯曲的金属丝边缘,形成了一个开放结构,使得水果从各个角度都可见。碗内有两根黄色的香蕉,放在一个似乎是红苹果的上面。香蕉略微过熟,果皮上的棕色斑点表明了这一点。碗的顶部有一个金属环,可能用作提手。碗放置在一个平坦的表面上,背景为中性色,清晰地展示了碗内的水果。

Spring AI 为以下对话模型提供多模态支持:

  • Anthropic Claude 3

  • AWS Bedrock Converse

  • Azure Open AI(例如 GPT-4o 模型)

  • Mistral AI(例如 Mistral Pixtral 模型)

  • Ollama(例如 LLaVA, BakLLaVA, Llama3.2 模型)

  • OpenAI(例如 GPT-4 和 GPT-4o 模型)

  • Vertex AI Gemini(例如 gemini-1.5-pro-001, gemini-1.5-flash-001 模型)

相关推荐
老百姓懂点AI3 分钟前
[RAG架构] 拒绝向量检索幻觉:智能体来了(西南总部)AI agent指挥官的GraphRAG实战与AI调度官的混合索引策略
人工智能·架构
ws2019074 分钟前
技术迭代与湾区赋能:AUTO TECH China 2026广州汽车零部件展的四大核心价值
人工智能·科技·汽车
源于花海10 分钟前
迁移学习简明手册——迁移学习相关资源汇总
人工智能·机器学习·迁移学习
aihuangwu13 分钟前
deepseek图表怎么导出
人工智能·ai·deepseek·ds随心转
木斯佳16 分钟前
HarmonyOS 6实战(源码教学篇)— PinchGesture 图像处理【仿证件照工具实现手势交互的canvas裁剪框】)
图像处理·交互·harmonyos
Gofarlic_oms124 分钟前
通过Kisssoft API接口实现许可证管理自动化集成
大数据·运维·人工智能·分布式·架构·自动化
电商API&Tina25 分钟前
电商数据采集 API 接口 全维度解析(技术 + 商业 + 合规)
java·大数据·开发语言·数据库·人工智能·json
退休钓鱼选手35 分钟前
[CommonAPI + vsomeip]通信 客户端 5
c++·人工智能·自动驾驶
小鸡吃米…38 分钟前
机器学习 - 精确率与召回率
人工智能·python·机器学习
学步_技术44 分钟前
多模态学习—A Survey of Multimodal Learning: Methods, Applications, and Future
人工智能·深度学习·计算机视觉