Qwen3.6 多模态能力主要支持图像 和视频 两类视觉格式,通过 OpenAI 兼容 API 以 image_url 和 video_url 类型传入:
- 图像格式 :支持常见静态图片格式(如 JPG/JPEG 、PNG 、WEBP 等),需通过 URL 或 Base64 编码传递 。
- 视频格式 :支持主流视频容器格式(如 MP4 、MOV 、AVI 等),模型会自动采样帧进行理解,默认采样率为 2fps,可通过参数自定义 。
- 文本混合 :所有视觉输入均可与纯文本混合编排在同一消息中,实现图文/视频问答 。
注意:模型不直接支持上传本地文件路径,需将资源托管至可公开访问的 URL 或转换为 Base64 字符串后调用 API 。
Qwen3.6系列多模态模型主要支持以下常见图片格式:
- JPEG/JPG:最通用的有损压缩格式,适合照片类图像 。
- PNG:支持无损压缩及透明通道,适合图表、截图及需保留细节的场景 。
- WebP:现代高效格式,在同等质量下体积更小,加载速度更快 。
关键注意事项:
- 色彩模式要求 :模型内部预处理通常期望标准的 RGB 三通道 图片。若上传 RGBA(带透明)、CMYK 或灰度模式图片,可能需先转换为 RGB 模式以避免识别异常 。
- 版本差异 :千问3.6包含纯文本版本(如部分 Qwen3.6-Plus 配置)和多模态版本(如 Qwen3.6-27B-VL),仅多模态版本支持图片输入,使用前请确认模型类型 。
- 上传限制:通过 API 或网页端上传时,需注意文件大小限制(通常单张不超过 20MB-50MB,具体视平台而定),过大图片建议压缩或转换格式 。