Qwen3.6多模态版本

Qwen3.6 多模态能力主要支持‌图像 ‌和‌视频 ‌两类视觉格式,通过 OpenAI 兼容 API 以 image_urlvideo_url 类型传入:

  • 图像格式 ‌:支持常见静态图片格式(如 ‌JPG/JPEG ‌、‌PNG ‌、‌WEBP‌ 等),需通过 URL 或 Base64 编码传递 。
  • 视频格式 ‌:支持主流视频容器格式(如 ‌MP4 ‌、‌MOV ‌、‌AVI‌ 等),模型会自动采样帧进行理解,默认采样率为 2fps,可通过参数自定义 。
  • 文本混合 ‌:所有视觉输入均可与‌纯文本‌混合编排在同一消息中,实现图文/视频问答 。‌‌

注意:模型不直接支持上传本地文件路径,需将资源托管至可公开访问的 URL 或转换为 Base64 字符串后调用 API 。

Qwen3.6系列多模态模型主要支持以下常见图片格式:

  • JPEG/JPG‌:最通用的有损压缩格式,适合照片类图像 。
  • PNG‌:支持无损压缩及透明通道,适合图表、截图及需保留细节的场景 。
  • WebP‌:现代高效格式,在同等质量下体积更小,加载速度更快 。‌‌

‌‌‌关键注意事项‌:

  1. 色彩模式要求 ‌:模型内部预处理通常期望标准的 ‌RGB 三通道‌ 图片。若上传 RGBA(带透明)、CMYK 或灰度模式图片,可能需先转换为 RGB 模式以避免识别异常 。
  2. 版本差异 ‌:千问3.6包含纯文本版本(如部分 Qwen3.6-Plus 配置)和多模态版本(如 Qwen3.6-27B-VL),仅‌多模态版本‌支持图片输入,使用前请确认模型类型 。
  3. 上传限制‌:通过 API 或网页端上传时,需注意文件大小限制(通常单张不超过 20MB-50MB,具体视平台而定),过大图片建议压缩或转换格式 。‌‌