Solon AI 开发学习8 - chat - Vision（理解）图片、声音、视频

组合缺一2025-12-01 14:28

理解（或感知）多媒体内容的能力，需要大模型支持

就是把图片和提示语一起提交给大模型。需要用到 Image 接口

示例（有些模型需要提交 url ，有些需要提交 b64。按模型要求使用）：

java 复制代码

chatModel.prompt(ChatMessage.ofUser("这个图上有人像吗？", 
                    Image.ofUrl("http://.../demo.jpg")))
            .call();

就是把声音和提示语一起提交给大模型。需要用到 Audio 接口

接口	描述
`Audio.ofUrl(String)`	根据 url 创建 Audio

示例：

java 复制代码

chatModel.prompt(ChatMessage.ofUser("这里讲了什么？", 
                    Audio.ofUrl("http://.../demo.jpg")))
            .call();

就是把视频和提示语一起提交给大模型。需要用到 Video 接口

接口	描述
`Video.ofUrl(String)`	根据 url 创建 Video

示例：

java 复制代码

chatModel.prompt(ChatMessage.ofUser("这里讲了什么？", 
                    Video.ofUrl("http://.../demo.jpg")))
            .call();