Solon AI 开发学习8 - chat - Vision(理解)图片、声音、视频

理解(或感知)多媒体内容的能力,需要大模型支持

1、理解图片(图像)

就是把图片和提示语一起提交给大模型。需要用到 Image 接口

接口 描述
Image.ofUrl(String) 根据 url 创建 Image
Image.ofBase64(String) 根据 base64 String 创建 Image
Image.ofBase64(byte[]) 根据 base64 byte[] 创建 Image

示例(有些模型需要提交 url ,有些需要提交 b64。按模型要求使用):

java 复制代码
chatModel.prompt(ChatMessage.ofUser("这个图上有人像吗?", 
                    Image.ofUrl("http://.../demo.jpg")))
            .call();

2、理解声音(音频)

就是把声音和提示语一起提交给大模型。需要用到 Audio 接口

接口 描述
Audio.ofUrl(String) 根据 url 创建 Audio

示例:

java 复制代码
chatModel.prompt(ChatMessage.ofUser("这里讲了什么?", 
                    Audio.ofUrl("http://.../demo.jpg")))
            .call();

3、理解视频

就是把视频和提示语一起提交给大模型。需要用到 Video 接口

接口 描述
Video.ofUrl(String) 根据 url 创建 Video

示例:

java 复制代码
chatModel.prompt(ChatMessage.ofUser("这里讲了什么?", 
                    Video.ofUrl("http://.../demo.jpg")))
            .call();
相关推荐
落地加湿器1 分钟前
ReAct源码解读-一轮循环
人工智能·智能体·react框架·源码解读
一直会游泳的小猫3 分钟前
CC-Switch使用指南
ai·claude code·ai配置管理工具
次旅行的库5 分钟前
【问渠哪得清如许-数据分析】学习笔记-下
数据库·笔记·sql·学习
液态不合群13 分钟前
OpenCV多线程编程:从单线程到多线程的视频处理
人工智能·opencv·音视频
⑩-14 分钟前
RabbitMQ 架构和工作原理?RabbitMQ 延迟队列如何实现?
java·分布式·架构·rabbitmq
ZPC821015 分钟前
OLOv11 + 深度相机的方案实现高精度3D定位
人工智能·数码相机·算法·机器人
子非鱼@Itfuture16 分钟前
try-catch和try-with-resources区别是什么?try{}catch(){}和try(){}catch(){}有什么好处?
java·开发语言
星辰yzy16 分钟前
个人用户怎么选AI套餐更划算
人工智能
weixin_4492900117 分钟前
端到端智能对话系统架构文档
ai
夏白分享社19 分钟前
OpenClaw 本地模型终极实战:vLLM 部署优化完整教程!
ai·开源软件·openclaw