Solon AI 开发学习8 - chat - Vision(理解)图片、声音、视频

理解(或感知)多媒体内容的能力,需要大模型支持

1、理解图片(图像)

就是把图片和提示语一起提交给大模型。需要用到 Image 接口

接口 描述
Image.ofUrl(String) 根据 url 创建 Image
Image.ofBase64(String) 根据 base64 String 创建 Image
Image.ofBase64(byte[]) 根据 base64 byte[] 创建 Image

示例(有些模型需要提交 url ,有些需要提交 b64。按模型要求使用):

java 复制代码
chatModel.prompt(ChatMessage.ofUser("这个图上有人像吗?", 
                    Image.ofUrl("http://.../demo.jpg")))
            .call();

2、理解声音(音频)

就是把声音和提示语一起提交给大模型。需要用到 Audio 接口

接口 描述
Audio.ofUrl(String) 根据 url 创建 Audio

示例:

java 复制代码
chatModel.prompt(ChatMessage.ofUser("这里讲了什么?", 
                    Audio.ofUrl("http://.../demo.jpg")))
            .call();

3、理解视频

就是把视频和提示语一起提交给大模型。需要用到 Video 接口

接口 描述
Video.ofUrl(String) 根据 url 创建 Video

示例:

java 复制代码
chatModel.prompt(ChatMessage.ofUser("这里讲了什么?", 
                    Video.ofUrl("http://.../demo.jpg")))
            .call();
相关推荐
坚持就完事了1 分钟前
Java的OOP
java·开发语言
李昊哲小课4 分钟前
OpenCV Haar级联分类器人脸检测完整教程
人工智能·opencv·计算机视觉
hit56实验室4 分钟前
【易经系列】用六:利永贞。
人工智能
星爷AG I9 分钟前
9-22 目标跟踪(AGI基础理论)
人工智能·agi
m0_6038887112 分钟前
FineInstructions Scaling Synthetic Instructions to Pre-Training Scale
人工智能·深度学习·机器学习·ai·论文速览
像少年啦飞驰点、13 分钟前
零基础入门 Spring Boot:从“Hello World”到可部署微服务的完整学习路径
java·spring boot·微服务·编程入门·后端开发
新缸中之脑16 分钟前
RAG 陷阱:向量搜索不是语义理解
人工智能
EmmaXLZHONG20 分钟前
Reinforce Learning Concept Flow Chart (强化学习概念流程图)
人工智能·深度学习·机器学习·流程图
爬台阶的蚂蚁21 分钟前
RAG概念和使用
ai·rag
薛定谔的猫198222 分钟前
十三.调用 BERT 中文文本情感分析交互式推理模型训练好的
人工智能·深度学习·bert