Solon AI 开发学习8 - chat - Vision(理解)图片、声音、视频

理解(或感知)多媒体内容的能力,需要大模型支持

1、理解图片(图像)

就是把图片和提示语一起提交给大模型。需要用到 Image 接口

接口 描述
Image.ofUrl(String) 根据 url 创建 Image
Image.ofBase64(String) 根据 base64 String 创建 Image
Image.ofBase64(byte[]) 根据 base64 byte[] 创建 Image

示例(有些模型需要提交 url ,有些需要提交 b64。按模型要求使用):

java 复制代码
chatModel.prompt(ChatMessage.ofUser("这个图上有人像吗?", 
                    Image.ofUrl("http://.../demo.jpg")))
            .call();

2、理解声音(音频)

就是把声音和提示语一起提交给大模型。需要用到 Audio 接口

接口 描述
Audio.ofUrl(String) 根据 url 创建 Audio

示例:

java 复制代码
chatModel.prompt(ChatMessage.ofUser("这里讲了什么?", 
                    Audio.ofUrl("http://.../demo.jpg")))
            .call();

3、理解视频

就是把视频和提示语一起提交给大模型。需要用到 Video 接口

接口 描述
Video.ofUrl(String) 根据 url 创建 Video

示例:

java 复制代码
chatModel.prompt(ChatMessage.ofUser("这里讲了什么?", 
                    Video.ofUrl("http://.../demo.jpg")))
            .call();
相关推荐
robot_learner4 分钟前
OpenClaw, 突然走红的智能体
人工智能
ujainu小4 分钟前
CANN仓库内容深度解读:昇腾AI生态的基石与AIGC发展的引擎
人工智能·aigc
rcc86286 分钟前
AI应用核心技能:从入门到精通的实战指南
人工智能·机器学习
霖大侠11 分钟前
【无标题】
人工智能·深度学习·机器学习
callJJ20 分钟前
Spring AI 文本聊天模型完全指南:ChatModel 与 ChatClient
java·大数据·人工智能·spring·spring ai·聊天模型
CBeann21 分钟前
企业级规则引擎落地实战:动态脚本引擎 QLExpress ,真香!
java·ai·大模型·规则引擎·qlexpress·大厂实战项目
懈尘21 分钟前
从 Java 1.7 到 Java 21:逐版本深入解析新特性与平台演进
java·开发语言
亓才孓21 分钟前
[Maven]Maven基础
java·maven
凉辰24 分钟前
使用uni.createInnerAudioContext()播放指定音频(踩坑分享功能)
开发语言·javascript·音视频
hello 早上好26 分钟前
05_Java 类加载过程
java·开发语言