Solon AI 开发学习8 - chat - Vision(理解)图片、声音、视频

理解(或感知)多媒体内容的能力,需要大模型支持

1、理解图片(图像)

就是把图片和提示语一起提交给大模型。需要用到 Image 接口

接口 描述
Image.ofUrl(String) 根据 url 创建 Image
Image.ofBase64(String) 根据 base64 String 创建 Image
Image.ofBase64(byte[]) 根据 base64 byte[] 创建 Image

示例(有些模型需要提交 url ,有些需要提交 b64。按模型要求使用):

java 复制代码
chatModel.prompt(ChatMessage.ofUser("这个图上有人像吗?", 
                    Image.ofUrl("http://.../demo.jpg")))
            .call();

2、理解声音(音频)

就是把声音和提示语一起提交给大模型。需要用到 Audio 接口

接口 描述
Audio.ofUrl(String) 根据 url 创建 Audio

示例:

java 复制代码
chatModel.prompt(ChatMessage.ofUser("这里讲了什么?", 
                    Audio.ofUrl("http://.../demo.jpg")))
            .call();

3、理解视频

就是把视频和提示语一起提交给大模型。需要用到 Video 接口

接口 描述
Video.ofUrl(String) 根据 url 创建 Video

示例:

java 复制代码
chatModel.prompt(ChatMessage.ofUser("这里讲了什么?", 
                    Video.ofUrl("http://.../demo.jpg")))
            .call();
相关推荐
白日做梦Q1 小时前
深度学习训练中 Loss 为 Nan 的 10 种原因及解决方案
人工智能·深度学习
tgethe1 小时前
MybatisPlus基础部分详解(上篇)
java·spring boot·mybatisplus
n***33351 小时前
springboot-自定义注解
java·spring boot·spring
汤姆Tom1 小时前
前端转战后端:JavaScript 与 Java 对照学习指南 (第二篇 - 基本数据类型对比)
java·javascript·全栈
程序员西西1 小时前
Redis看门狗底层原理深度解析:Redisson续期机制源码与实战指南
java·后端
星空的资源小屋1 小时前
Explorer++:更强大的Windows文件管理器
javascript·人工智能·django·电脑
AI科技星1 小时前
自然本源——空间元、氢尺、探针与场方程
数据结构·人工智能·算法·机器学习·计算机视觉
武子康1 小时前
Java-179 FastDFS 高并发优化思路:max_connections、线程、目录与同步
java·开发语言·nginx·性能优化·系统架构·fastdfs·fdfs