Solon AI 开发学习8 - chat - Vision(理解)图片、声音、视频

理解(或感知)多媒体内容的能力,需要大模型支持

1、理解图片(图像)

就是把图片和提示语一起提交给大模型。需要用到 Image 接口

接口 描述
Image.ofUrl(String) 根据 url 创建 Image
Image.ofBase64(String) 根据 base64 String 创建 Image
Image.ofBase64(byte[]) 根据 base64 byte[] 创建 Image

示例(有些模型需要提交 url ,有些需要提交 b64。按模型要求使用):

java 复制代码
chatModel.prompt(ChatMessage.ofUser("这个图上有人像吗?", 
                    Image.ofUrl("http://.../demo.jpg")))
            .call();

2、理解声音(音频)

就是把声音和提示语一起提交给大模型。需要用到 Audio 接口

接口 描述
Audio.ofUrl(String) 根据 url 创建 Audio

示例:

java 复制代码
chatModel.prompt(ChatMessage.ofUser("这里讲了什么?", 
                    Audio.ofUrl("http://.../demo.jpg")))
            .call();

3、理解视频

就是把视频和提示语一起提交给大模型。需要用到 Video 接口

接口 描述
Video.ofUrl(String) 根据 url 创建 Video

示例:

java 复制代码
chatModel.prompt(ChatMessage.ofUser("这里讲了什么?", 
                    Video.ofUrl("http://.../demo.jpg")))
            .call();
相关推荐
Dicky-_-zhang1 天前
系统容量规划与压测实战:从1万到100万QPS的科学扩容
java·jvm
Dicky-_-zhang1 天前
消息队列Kafka/RocketMQ选型与高可用架构:从单体到100万TPS的演进
java·jvm
晨曦中的暮雨1 天前
4.15腾讯 CSIG云服务产线 一面
java·开发语言
fake_ss1981 天前
AI时代学习全栈项目开发的新范式
java·人工智能·学习·架构·个人开发·学习方法
养肥胖虎1 天前
RAG学习笔记(3):区分数据库检索与RAG的使用场景
数据库·ai·rag
茉莉玫瑰花茶1 天前
工作流的常见模式 [ 1 ]
java·服务器·前端
蔡俊锋1 天前
AI记忆压缩术:从305GB到7.4GB的魔法
人工智能·ai·ai 记忆
未若君雅裁1 天前
Spring AOP、日志切面与声明式事务原理
java·后端·spring
No8g攻城狮1 天前
【人大金仓】wsl2+ubuntu22.04安装人大金仓数据库V9
java·数据库·spring boot·非关系型数据库
xiaoerbuyu12331 天前
开源Java 邮箱 基于SpringBoot+Vue前后端分离的电子邮件
java·开发语言