Solon AI 开发学习8 - chat - Vision(理解)图片、声音、视频

理解(或感知)多媒体内容的能力,需要大模型支持

1、理解图片(图像)

就是把图片和提示语一起提交给大模型。需要用到 Image 接口

接口 描述
Image.ofUrl(String) 根据 url 创建 Image
Image.ofBase64(String) 根据 base64 String 创建 Image
Image.ofBase64(byte[]) 根据 base64 byte[] 创建 Image

示例(有些模型需要提交 url ,有些需要提交 b64。按模型要求使用):

java 复制代码
chatModel.prompt(ChatMessage.ofUser("这个图上有人像吗?", 
                    Image.ofUrl("http://.../demo.jpg")))
            .call();

2、理解声音(音频)

就是把声音和提示语一起提交给大模型。需要用到 Audio 接口

接口 描述
Audio.ofUrl(String) 根据 url 创建 Audio

示例:

java 复制代码
chatModel.prompt(ChatMessage.ofUser("这里讲了什么?", 
                    Audio.ofUrl("http://.../demo.jpg")))
            .call();

3、理解视频

就是把视频和提示语一起提交给大模型。需要用到 Video 接口

接口 描述
Video.ofUrl(String) 根据 url 创建 Video

示例:

java 复制代码
chatModel.prompt(ChatMessage.ofUser("这里讲了什么?", 
                    Video.ofUrl("http://.../demo.jpg")))
            .call();
相关推荐
4311媒体网8 小时前
自动收藏功能的实现方法
java·开发语言
Yana.nice8 小时前
证书格式的适用场景与核心对比
java·linux
猿小羽8 小时前
RAG:基于检索的生成技术入门与实践指引
ai·生成模型·rag·知识检索·rag 技术
怪兽毕设8 小时前
基于SpringBoot的选课调查系统
java·vue.js·spring boot·后端·node.js·选课调查系统
阿杰学AI8 小时前
AI核心知识77——大语言模型之Joint Training(简洁且通俗易懂版)
人工智能·深度学习·ai·语言模型·rag·联合训练·joint training
DFT计算杂谈8 小时前
VASP+PHONOPY+pypolymlpj计算不同温度下声子谱,附批处理脚本
java·前端·数据库·人工智能·python
cyforkk8 小时前
13、Java 基础硬核复习:泛型(类型安全)的核心逻辑与面试考点
java·开发语言·面试
程序员徐师兄8 小时前
Windows JDK17 下载安装教程,附详细图文
java·windows·jdk17 下载安装·java17 下载安装教程
IManiy8 小时前
总结之Temporal实现全局速率控制方案(一)
java
code_li8 小时前
Android 16KB页面大小适配
java·架构·android-studio