Solon AI 开发学习8 - chat - Vision(理解)图片、声音、视频

理解(或感知)多媒体内容的能力,需要大模型支持

1、理解图片(图像)

就是把图片和提示语一起提交给大模型。需要用到 Image 接口

接口 描述
Image.ofUrl(String) 根据 url 创建 Image
Image.ofBase64(String) 根据 base64 String 创建 Image
Image.ofBase64(byte[]) 根据 base64 byte[] 创建 Image

示例(有些模型需要提交 url ,有些需要提交 b64。按模型要求使用):

java 复制代码
chatModel.prompt(ChatMessage.ofUser("这个图上有人像吗?", 
                    Image.ofUrl("http://.../demo.jpg")))
            .call();

2、理解声音(音频)

就是把声音和提示语一起提交给大模型。需要用到 Audio 接口

接口 描述
Audio.ofUrl(String) 根据 url 创建 Audio

示例:

java 复制代码
chatModel.prompt(ChatMessage.ofUser("这里讲了什么?", 
                    Audio.ofUrl("http://.../demo.jpg")))
            .call();

3、理解视频

就是把视频和提示语一起提交给大模型。需要用到 Video 接口

接口 描述
Video.ofUrl(String) 根据 url 创建 Video

示例:

java 复制代码
chatModel.prompt(ChatMessage.ofUser("这里讲了什么?", 
                    Video.ofUrl("http://.../demo.jpg")))
            .call();
相关推荐
偷吃的耗子1 分钟前
【CNN算法理解】:CNN平移不变性详解:数学原理与实例
人工智能·算法·cnn
勾股导航1 分钟前
OpenCV图像坐标系
人工智能·opencv·计算机视觉
神的泪水3 分钟前
CANN 生态实战:`msprof-performance-analyzer` 如何精准定位 AI 应用性能瓶颈
人工智能
芷栀夏3 分钟前
深度解析 CANN 异构计算架构:基于 ACL API 的算子调用实战
运维·人工智能·开源·cann
威迪斯特3 分钟前
项目解决方案:医药生产车间AI识别建设解决方案
人工智能·ai实时识别·视频实时识别·识别盒子·识别数据分析·项目解决方案
笔画人生4 分钟前
# 探索 CANN 生态:深入解析 `ops-transformer` 项目
人工智能·深度学习·transformer
努力学编程呀(๑•ี_เ•ี๑)5 分钟前
【在 IntelliJ IDEA 中切换项目 JDK 版本】
java·开发语言·intellij-idea
feasibility.5 分钟前
AI 编程助手进阶指南:从 Claude Code 到 OpenCode 的工程化经验总结
人工智能·经验分享·设计模式·自动化·agi·skills·opencode
程序猿追5 分钟前
深度剖析 CANN ops-nn 算子库:架构设计、演进与代码实现逻辑
人工智能·架构
灰灰勇闯IT8 分钟前
领域制胜——CANN 领域加速库(ascend-transformer-boost)的场景化优化
人工智能·深度学习·transformer