一个索引，所有媒体：介绍 jina-embeddings-v5-omni

作者：来自 Elastic Scott Martens

jina-embeddings-v5-omni 让你将文本、图像、视频和音频嵌入到单个 Elasticsearch 索引中，并一次性跨所有这些内容进行查询。

立即亲手体验 Elasticsearch：深入探索 Elasticsearch Labs 仓库中的示例 notebooks，开始免费的云试用，或者现在就在你的本地机器上试用 Elastic。

jina-embeddings-v5-omni 将文本、图像、视频和音频整合到单个 Elasticsearch 索引中。在业内领先的 jina-embeddings-v5-text 模型基础上，v5-omni 系列通过一种创新架构增加了视觉和音频编码能力，同时保持文本主干完全一致，从而在一个非常紧凑的 embedding 模型中提供前沿级性能。

你现在可以为文本、图像、视频和音频录音创建高性能语义 embeddings，覆盖近 100 种语言，并将它们用于分类、聚类、语义相似度测量以及检索索引。如果你的数据除了文本之外，还存在于 PDF、录音和视频中，你将不再需要为每种媒体构建独立 pipeline。

jina-embeddings-v5-omni 系列是目前市场上支持图片、语音、印刷内容和视频的最紧凑 embedding 模型。它提供：

jina-embeddings-v5-text 的前沿级文本 embeddings，用于检索、分析和 AI agent 应用。
同尺寸级别中最佳的视觉 embeddings，用于视觉语义相似度、视觉理解和图像检索 。jina-embeddings-v5-omni-small 在所有 10⁹ 参数规模模型中的图像 benchmark 表现最佳，并优于我们此前自己的 jina-clip-v2。只有少数参数规模大 3 到 30 倍的模型才能超过它。
最先进的多语言视觉理解和检索 embeddings，击败了参数规模高达其 20 倍的模型。
同尺寸级别中最佳的音频 embeddings，只有参数数量达到其两倍或更多的模型才能在标准 benchmark 上表现更好。
对视频的支持，特别适用于定位视频片段中的对象和事件。

这在信息检索、文档处理和数据分析的所有领域都有应用。jina-embeddings-v5-omni 打开了不同媒体孤岛中的信息访问能力，使其能够被检索、分析并供 AI agents 使用。音频和视频录音、PDF、印刷页面扫描件以及信息图中的内容，在你的数据生态系统中将与数字化文本处于同等地位。

与 jina-embeddings-v5-text 一样，这些模型也有两种尺寸：small 和 nano 。两个模型都在对应文本版本的基础上扩展了支持音频和视觉输入的额外模块。用户可以在加载时选择模块。此外，针对语义相似度、分类、聚类和信息检索的任务专用扩展，被实现为紧凑的低秩适配器（ LoRAs ），并会全部加载，因此用户可以在推理（inference）时进行选择。

两个模型都非常紧凑。jina-embeddings-v5-omni-small 可以运行在配备常规 GPU 的服务器上，而 jina-embeddings-v5-omni-nano 小到足以运行在普通硬件上。这意味着巨大的计算成本节省，同时支持授权本地部署和边缘处理，从而降低延迟并增强你对自身数据的控制能力。

v5-omni 系列使用创新的模型设计和机器学习技术，在无需重新训练的情况下，将先前训练好的模型组合成新的 embedding 模型。我们使用来自预训练、语言对齐 embedding 模型中的编码器，作为音频和视频媒体的输入预处理器，并将其接入现有的 jina-embeddings-v5-text 模型系列。最终模型生成的图像和声音录音 embeddings，与其生成的文本 embeddings 在语义上兼容。

v5-omni 模型生成的文本 embeddings 与 jina-embeddings-v5-text 完全一致（即 jina-embeddings-v5-omni-small 对应 jina-embeddings-v5-text-small；jina-embeddings-v5-omni-nano 对应 jina-embeddings-v5-text-nano ），因此你无需重建索引，就可以将现有文本检索仓库扩展到多媒体应用。

集成的编码器全部来源于开放权重模型。对于图像和视频，我们使用了来自 Qwen3.5 模型的编码器：

对于 jina-embeddings-v5-omni-nano，使用来自 Qwen3.5-0.8B 的微调版 SigLIP2 Base 编码器。
对于 jina-embeddings-v5-omni-small，使用来自 Qwen3.5-2B 的微调版 SigLIP2 So400m 编码器。

对于音频支持，我们向 small 和 nano 两个版本都加入了来自 Whisper-large-v3 的编码器，该编码器从 Qwen2.5-Omni-7B 中提取。

我们通过训练后的跨模态 projector，将这些媒体专用编码器连接到文本处理主干。这些 projector 会将各自原生输出转换为与 jina-embeddings-v5-text 兼容的输入 embeddings。jina-embeddings-v5-omni 模型中唯一新训练的部分，就是这些 projector 中的权重。
jina-embeddings-v5-omni 模型示意图。只有跨媒体 projector 经过了新的训练。

这种架构意味着，我们只需要为每个 LoRA adapter 训练跨模型 projector，对于 jina-embeddings-v5-omni-small 大约为 550 万参数，而对于 jina-embeddings-v5-omni-nano 则少于 350 万参数。这种方法将连接不同 embedding 模型所需的额外训练降到最低，同时利用各模型的专门训练能力，构建出一个极其紧凑、高性能、模块化的 embedding 套件。

选定模型属性

输入 / 输出

模型名称	输入上下文窗口大小	Embedding 大小
jina-embeddings-v5-omni-small	32,768 tokens*	1024 维（最小：32）
jina-embeddings-v5-omni-nano	8,192 tokens*	768 维（最小：32）

* 关于非文本媒体如何被 token 化的更多信息，请参阅下方 "使用 jina-embeddings-v5-omni"。

大小

模型名称	总大小
jina-embeddings-v5-omni-small（仅文本基础模型 + 4 个 LoRA adapters）	7 亿参数
图像 / 视频支持（从 Qwen3.5-2B 提取的 SigLIP2 So400m 编码器）	10.06 亿参数
音频支持（从 Qwen2.5-Omni-7B 提取的 Whisper-large-v3 编码器）	13.54 亿参数
两者同时启用	16.60 亿参数
LoRA adapters（每个）	2000 万参数
jina-embeddings-v5-omni-nano（仅文本基础模型 + 4 个 LoRA adapters）	2.66 亿参数
图像 / 视频支持（从 Qwen3.5-0.8B 提取的 SigLIP2 Base 编码器）	3.54 亿参数
音频支持（从 Qwen2.5-Omni-7B 提取的 Whisper-large-v3 编码器）	9.16 亿参数
两者同时启用	10.04 亿参数
LoRA adapters（每个）	700 万参数

* 关于非文本媒体如何被 token 化的更多信息，请参阅下方 "使用 jina-embeddings-v5-omni"。

任务专用训练

jina-embeddings-v5-omni 系列支持与 jina-embeddings-v5-text 相同的任务专用 LoRA adapters：

任务	示例用途
检索	信息检索，可单独使用，也可与其他检索和候选评估技术结合使用。借助 v5-omni 模型，你可以通过一次查询，从一个索引中检索音频、视频和图像。
聚类	跨所有媒体的主题发现和自动主题组织。
分类	分类、情感分析以及相关类型任务。
语义相似度	跨媒体数据去重、推荐系统、相关媒体查找、寻找与语音匹配的文本、识别翻译内容以及类似任务。

输出 embeddings 会依赖所选择的任务类别。例如，你不应该将面向检索的 embeddings 用于聚类，也不应该将语义相似度 embeddings 用于分类。

多媒体、多模态、多语言、多功能

为了展示 jina-embeddings-v5-omni 的能力，我们来看两部小说著名开篇段落，并测量它们的语义相似度：

《双城记》（查尔斯·狄更斯）

复制代码

It was the best of times, it was the worst of times, it was the
age of wisdom, it was the age of foolishness, 
it was the epoch of belief, it was the epoch of incredulity,
it was the season of Light, it was the season of Darkness,
it was the spring of hope, it was the winter of despair,
we had everything before us, we had nothing before us,
we were all going direct to Heaven, we were all going
direct the other way---in short, the period was so far like
the present period, that some of its noisiest authorities
insisted on its being received, for good or for evil, in 
the superlative degree of comparison only.

《傲慢与偏见》（简·奥斯汀）

复制代码

It is a truth universally acknowledged, that a 
single man in possession of a good fortune must
be in want of a wife. However little known the
feelings or views of such a man may be on his first
entering a neighbourhood, this truth is so well
fixed in the minds of the surrounding families,
that he is considered as the rightful property of
some one or other of their daughters.

使用 jina-embeddings-v5-omni-small，并结合其语义相似度 adapter，这些文本的相似度为 0.5329。

如果没有对比，这个数值意义不大，所以我们用同一模型和同一 adapter，将这两段文本与它们的法语翻译进行比较：

跨语言文本的语义相似度分数

	《双城记》（英文）	《傲慢与偏见》（英文）
《双城记》（法文）（1783年的巴黎与伦敦，译：H. Loreau）	0.9095	0.5074
《傲慢与偏见》（法文）（《Orgueil et Préjugés》，译：Leconte et Pressoir）	0.4826	0.8784

这两段文本与它们的翻译相比，比与同一语言或不同语言的其他文本具有更高的相似性。这反映了 jina-embeddings-v5-text-small 的高性能多语言语义 embeddings，而该能力在 jina-embeddings-v5-omni-small 中被原样保留。

在 jina-embeddings-v5-omni 中加入多媒体支持，使我们可以将这个实验扩展到完全不同类型的数据。例如，我们从旧版印刷书籍中获取了两部小说第一页的扫描件：
图 2：《双城记》，未注明日期的 19 世纪版本，以及《傲慢与偏见》，1903 年麦克米伦版本。

让我们再次使用语义相似度 adapter，将文本与扫描图像进行比较：

文本与图像之间的语义相似度分数

	《双城记》（扫描件）	《傲慢与偏见》（扫描件）
《双城记》（文本）	0.7336	0.4891
《傲慢与偏见》（文本）	0.4804	0.7213

你可以看到，语义相似度分数明显更偏向于与图像内容匹配的文本。

我们也可以使用相同的设置，将文本与一条引用这些文本的社交媒体帖子截图以及一个表情包进行比较：

图 3：一条埃隆·马斯克提及《双城记》的推文，以及一个引用《傲慢与偏见》著名开头的表情包。

文本与图像之间的语义相似度分数

	《双城记》	《傲慢与偏见》
马斯克推文（图像）	0.7156	0.4912
"Keep calm" 表情包（图像）	0.4555	0.6244

我们也可以对语音做同样的操作。我们获取了两部文本的朗读录音，分别为英文和法文：

跨语言文本与音频之间的语义相似度分数

	《双城记》（英文音频）	《双城记》（法文音频）	《傲慢与偏见》（英文音频）	《傲慢与偏见》（法文音频）
《双城记》（英文文本）	0.3816	0.3106	0.1607	0.1774
《双城记》（法文文本）	0.3528	0.3253	0.1598	0.1721
《傲慢与偏见》（英文文本）	0.1910	0.1682	0.3511	0.3398
《傲慢与偏见》（法文文本）	0.1667	0.1474	0.3018	0.3702

这种多语言与多媒体能力也扩展到了信息检索（retrieval）。

jina-embeddings-v5-omni 模型的检索 adapters 实现了非对称检索（asymmetric retrieval）。这意味着它对 query 的编码方式与对检索目标文档的编码方式不同，因此跨模态查询始终具有方向性------例如 query 来自一种媒体，而 documents 来自另一种媒体，所以当方向反转时，分数也会不同。

下面的表格展示了在以《双城记》（英文文本）作为 query 的情况下，《双城记》和《傲慢与偏见》的文本、音频以及页面扫描图像之间的检索分数：

文本对文本

Document	Retrieval score
A Tale of Two Cities (French text extract)	0.7597
Pride and Prejudice (English text extract)	0.1482
Pride and Prejudice (French text extract)	0.0523

文本对图像

Document	Retrieval score
A Tale of Two Cities (English page scan)	0.5517
A Tale of Two Cities (French page scan)	0.3576
Pride and Prejudice (English page scan)	0.1917

文本对音频

Document	Retrieval score
A Tale of Two Cities (English audio)	0.3277
A Tale of Two Cities (French audio)	0.1980
Pride and Prejudice (English audio)	0.1419
Pride and Prejudice (French audio)	0.1759

用户也可以反过来运行查询，进行音频到文本（audio-to-text）和图像到文本（image-to-text）的检索。

下面是使用《双城记》的英文音频作为 query，并以不同文本作为 document 时的分数：

图像对文本

Document	Retrieval score
A Tale of Two Cities (English text extract)	0.3352
A Tale of Two Cities (French text extract)	0.2650
Pride and Prejudice (English text extract)	0.1626
Pride and Prejudice (French text extract)	0.1385

以及使用《双城记》第一页扫描件（英文）作为 query 时的分数：

音频对文本

Document	Retrieval score
A Tale of Two Cities (English text extract)	0.5304
A Tale of Two Cities (French text extract)	0.4845
Pride and Prejudice (English text extract)	0.1467
Pride and Prejudice (French text extract)	0.0761

视频搜索

jina-embeddings-v5-omni 的视频索引与检索能力为 Elasticsearch 数据库带来了新的可能性，但也需要注意一些与文本相同的限制。将一部长电影生成单一 embedding，就像把一部长篇小说压缩成一个向量：细节信息会被稀释，最终的 embedding 可能会与许多看似相关但实际上无关的查询产生匹配。

如果你将《指环王》（约 50 万词）的全文进行 embedding，它很可能在大多数查询下都表现出较高匹配度，无论你实际在寻找什么。同样，如果你对一部两小时的好莱坞电影建立索引，也会产生大量 "误匹配"，并遗漏关键细节。jina-embeddings-v5-omni 在短视频片段上的表现最佳。

在这个示例中，我们下载了 1961 年电影《蒂凡尼的早餐》（Breakfast At Tiffany's）的预告片，该片段仅 158 秒长，并且属于公有领域。你可以在 Internet Archive 上观看该预告片。
图 4：《蒂凡尼的早餐》（Breakfast at Tiffany's）的戏剧海报。

我们使用 PySceneDetect 将预告片切分为 28 个独立场景，长度从 1.877 秒（45 帧）到 18.393 秒（441 帧）不等。场景检测并不完美，但它提供了一种将视频切分为适合检索的小片段的有效方式。随后，我们使用 jina-embeddings-v5-omni-small 为这 28 个片段生成 document embeddings，从而测试文本查询在视频中定位特定元素的效果。

例如，当查询 "cat（猫）" 时，返回了以下三个最佳结果。包含猫的那一场景排在最前面，得分为 0.1634：

观看第一个片段。

第二高匹配项的得分为 0.1237，明显更低：

观看第二个片段。

你也可以查询动作。如果用字符串 "kiss（接吻）" 进行查询，前四个匹配结果全部都包含接吻场景：

观看第三个片段。其得分为 0.2864。
分数：第二个匹配为 0.2494，第三个匹配为 0.2099，第四个匹配为 0.2068。

你也可以搜索视频中显示的文本，比如"Buddy Ebsen"，它只出现过一次。jina-embeddings-v5-omni-small 能轻松将其识别为最佳匹配，得分为 0.3885，明显高于第二佳匹配：

Buddy Ebsen 片段。

视觉文档检索

Jina AI 多模态 embedding 模型在视觉文档处理方面表现优异，并在多语言视觉文档处理上达到最先进水平。这意味着可以处理包含文本、图表和结构化信息的图像数据。重要信息往往以扫描印刷件、PDF 文件、图表、技术图纸、截图、图片、信息图等形式存在。这类图像通常是机械排版或计算机生成的，无法在不损失语义的情况下简单转换为文本，并且也不适合针对自然场景摄影设计的计算机视觉模型。

jina-embeddings-v5-omni 的 embeddings 同时包含图像中物体的信息、其上印刷的文本信息，以及两者之间的关系。视觉文档检索使得索引同时包含 "物体 + 文本" 的复杂图像成为可能，并且可以跨语言进行检索。

作为示例，我们使用来自不同电商网站的四张商品图片：

现在，我们来看 jina-embeddings-v5-omni-small 在查询"ramen noodles（拉面）"时，对这四张图片的评分表现：

Campbell's Chunky Chicken Noodle（加拿大包装）	Kraft Dinner（加拿大包装）	Maruchan Miso Flavour Fresh Ramen（日本包装）	Birkel Spaghetti（德国包装）
0.0872	0.0711	0.1123	0.0886

它能够轻松找到对应的日本包装匹配。

现在，我们尝试用"マカロニチーズ"（日语中的 macaroni and cheese）进行查询：

Campbell's Chunky Chicken Noodle（加拿大包装）	Kraft Dinner（加拿大包装）	Maruchan Miso Flavour Fresh Ramen（日本包装）	Birkel Spaghetti（德国包装）
0.2207	0.3487	0.2760	0.2674

它与英文查询一样轻松地找到了正确匹配。

jina-embeddings-v5-omni 在解释信息密集型图像（例如图表）方面也表现出色。为了展示这一点，我们来看这两张柱状图：

左侧图表1：关于全球疾病负担

右侧图表2：关于不同犬种的寿命

我们来看两个潜在文本问题，它们分别只与其中一张图表相关，使用 jina-embeddings-v5-omni-small 进行检索：

文本问题	图表1	图表2
"What are some common medical problems for elderly people?"/"老年人常见的医疗问题有哪些？"	0.2787	0.1099
"How long do dogs live?"/"狗的寿命有多长？"	0.1350	0.3564

你也可以反向搜索，使用图像作为查询来查找文本。下面的表格展示了从主题相关的科学论文摘要中提取的目标文档，以及使用图表图像作为查询时的检索分数：

	Text 1	Text 2
	The health of populations living in extreme poverty has been a long-standing focus of global development efforts, and continues to be a priority during the Sustainable Development Goal era. However, there has not been a systematic attempt to quantify the magnitude and causes of the burden in this specific population for almost two decades. We estimated disease rates by cause for the world's poorest billion and compared these rates to those in high-income populations.	The companion dog is one of the most phenotypically diverse species. Variability between breeds extends not only to morphology and aspects of behaviour, but also to longevity. Despite this fact, little research has been devoted to assessing variation in life expectancy between breeds or evaluating the potential for phylogenetic characterisation of longevity.
Chart 1	0.2377	0.1357
Chart 2	0.0673	0.3576

特性

可截断 embeddings（Truncatable embeddings）

我们使用 Matryoshka Representation Learning 训练了作为 jina-embeddings-v5-omni 基础的 jina-embeddings-v5-text 模型，因此你可以对这些模型生成的文本和多媒体 embeddings 进行截断。

默认情况下，jina-embeddings-v5-omni-small 生成 1024 维 embeddings，在 16 位精度下存储约占 2KB。jina-embeddings-v5-omni-nano 的 embeddings 为 768 维，约占 1.5KB。你可以将 embeddings 的维度降低到 32 维（64 字节），但会牺牲一定准确率，同时获得更高的处理速度和更低的资源成本。一般来说，将 embedding 维度减半会导致约 2% 的准确率下降，但当降到 128 维以下时，性能下降会更明显。

可截断 embeddings 允许用户根据自己的应用场景，在准确率、速度和成本之间选择最佳平衡。

量化（Quantization）

jina-embeddings-v5-omni 系列同样继承了 jina-embeddings-v5-text backbone 在量化条件下的稳定性能。这进一步通过减少数值精度来提升速度并降低计算与存储成本。我们已训练其与 Elasticsearch 的 Better Binary Quantization（BBQ）协同工作，在几乎不损失性能的情况下实现高效压缩。

在 Massive Text Embedding Benchmark（MTEB）检索基准中，与完整 16 位浮点数相比，二值化带来的性能下降不到 3%，但可以节省 93% 的存储空间，并显著提升处理与检索速度。

跨语言性能（Cross-language performance）

jina-embeddings-v5-text 的多语言训练能力完整继承到了 jina-embeddings-v5-omni 中：

jina-embeddings-v5-text-small 在预训练中覆盖近 100 种语言
jina-embeddings-v5-text-nano 覆盖约 15 种主要全球语言
音频方面，Whisper-large-v3 模型覆盖约 100 种语言
图像编码部分使用的 Qwen 改造 SigLip2 模型，在训练中使用了来自 201 种语言和方言的数据

基准测试表现

文本（Text）

当仅用于文本时，jina-embeddings-v5-omni 模型与 jina-embeddings-v5-text 模型完全一致。它们在各自的尺寸类别中，是 MMTEB 基准测试套件中语义文本 embeddings 的最高性能模型。
图 5：jina-embeddings-v5-omni 在文本基准测试中的规模与性能表现，并与其他竞争模型进行对比。所引用的模型大小不包含用于其他媒体的扩展模块。

视觉语义相似度

在标准视觉语义相似度基准测试中，jina-embeddings-v5-omni 在相近规模的模型中取得了最佳分数。对于同等规模的公开开源权重模型，jina-embeddings-v5-omni 的表现远超其他模型。

在视觉语义相似度任务中，jina-embeddings-v5-omni-small 仅被一个体积大约为其 3 倍的模型超越；而 jina-embeddings-v5-omni-nano 仅被 jina-embeddings-v5-omni-small 以及参数规模大约 10 到 25 倍的模型超越。
图6：jina-embeddings-v5-omni-small、jina-embeddings-v5-omni-nano以及可比模型在视觉语义相似度基准测试中的平均分数，以及它们包含视觉扩展后的模型大小。

视觉文档检索

jina-embeddings-v5-omni-small 在参数规模低于 10 亿的情况下，与 30 亿和 70 亿参数规模的模型表现相当。jina-embeddings-v5-omni-nano 同样在规模上表现突出，能够超越体积大 10 到 60 倍的模型。
图7：ViDoRe 视觉文档检索在六个基准测试上的平均分数：DocVQA、InfoVQA、ShiftProj、SynAI、Tabfquad 和 TatDQA。

音频检索

在标准 MAEB（Massive Audio Embedding Benchmark，大规模音频嵌入基准）音频检索测试中，jina-embeddings-v5-omni-small 和 jina-embeddings-v5-omni-nano 都位列最佳表现模型之列。只有体积超过 jina-embeddings-v5-omni-small 三倍以上的超大模型才能在分数上超过它。
图8：不同模型在 MAEB 音频检索基准测试上的平均分数。

虽然 LAION 的 larger_clap_general 模型在参数更少的情况下确实比 jina-embeddings-v5-omni-nano 的分数更高，但它是一个仅支持音频的模型，并不具备 v5-omni 系列的多模态能力。

视频

在视频任务中，jina-embeddings-v5-omni-small 在根据文本查询定位视频中的对应片段方面表现出色。Charades-STA 和 MomentSeeker 是该任务的标准基准测试，从下方图表可以看出，尽管规模远小于其他模型，jina-embeddings-v5-omni-small 在同类开源权重模型中仍然是得分最高的模型。
图9：Charades-STA 在不同模型上的得分表现及其模型规模对比。

图10：MomentSeeker 在不同模型上的得分表现及其模型规模对比。

我们还将 jina-embeddings-v5-omni-small 与字节跳动的 Seed 1.6 进行了对比，后者是一个未公开参数规模的闭源模型。在 Charades-STA 基准测试中，我们的模型大幅领先 Seed 1.6，而在 MomentSeeker 上几乎持平。

模型	Charades-STA 分数	MomentSeeker 分数
seed-1.6-embedding	29.30	59.30
jina-embeddings-v5-omni-small	55.57	58.93

优势与局限性

jina-embeddings-v5-omni 模型在多个方面扩展了用户对数字化信息的索引、搜索与分析能力，尤其包括：

从文本查询中进行多语言语音检索
PDF、扫描件以及视觉文档搜索
视频时间定位（temporal grounding），即从自然语言描述中找到视频中对应片段
音频类型分类，包括音乐风格分类
基于场景信息与物体识别的图像分类

在某些其他领域性能仍然有限。虽然可以尝试用 jina-embeddings-v5-omni 完成这些任务，但由于没有针对这些方向专门训练，结果可能较差。

我们正在积极改进以下能力：

从自然语言描述中检索特定视频
图像到图像的语义相似度与检索
语音中的意图分类，例如识别语音指令
混合媒体输入处理，例如图像+文本，或音频+图像+文本的组合输入

使用方式（Using）

该模型系列支持三种输入入口：文本、音频，以及图像与视频的统一输入。jina-embeddings-v5-omni 在一个框架中运行，会将多种标准格式转换并进行预处理。

图像处理采用 SigLip2 初始版本中提供的 NaFlex 方法：

如果输入图像小于 262,144 像素（等价于 512×512），会进行放大处理，直到达到最小尺寸
如果大于 3,072,000 像素，则会进行缩小处理，直到低于最大限制
转换过程中会尽量减少宽高比失真，并确保图像的高度与宽度均为 14 的倍数
处理后的图像会被切分为 28×28 像素的 patch，因此一个图像包含多少个 28×28 patch，就对应多少个 token
每个 patch 在推理时被视为一个 token
每个图像输入还会附带特殊的起始与结束 token，用于标识单张图像的边界

Omni warning

jina-embeddings-v5-omni 模型对视频分辨率的处理方式与图像相同（见上文）。我们从视频中最多提取 32 帧。如果视频帧数超过 32 帧（这种情况很常见，因为标准视频通常至少为每秒 24 帧），则会均匀分布抽取帧。

然后，对于每两帧，视频预处理器会生成一组 token，其数量等于覆盖该视频所需的 28×28 patch 的数量。
图11：jina-embeddings-v5-omni 从视频中提取 32 帧等间隔帧。如果你有一段很长的视频，这意味着会丢失很多信息。

有关视频预处理的更多细节，请参阅 SigLip2 技术文档。

音频 tokenization 采用 Qwen-2.5-Omni 内置的方法：音频文件被切分为 30 秒片段；如果超过 30 秒，则会重采样到 16kHz，并转换为 128 通道梅尔频谱图。每 40ms 被视为一个 token，因此每个 30 秒片段对应 750 个 token，即每 40ms 一个 token，并附带用于标识单个样本的起始和结束特殊 token。

有关音频预处理的更多细节，请参阅 Qwen-2.5-Omni 技术报告。

可用性（Availability）

jina-embeddings-v5-omni-small 和 jina-embeddings-v5-omni-nano 均可在 Elastic Inference Service（EIS）、通过 Jina API使用，并支持本地下载安装（small 和 nano）。模型权重可在非商业许可下免费试用。商业用途请联系 Elastic 销售团队。

快速开始（Getting started）

在 EIS 上使用 jina-embeddings-v5-omni 模型时，在创建索引时需要将 type 字段设置为 semantic_text（即使媒体不全是文本），并在 inference_id 字段中指定 jina-embeddings-v5-omni-small 或 jina-embeddings-v5-omni-nano。EIS 会自动选择用于索引和检索的 LoRA adapter。

对于文本，流程与 jina-embeddings-v5-text 完全一致：

复制代码

PUT multimodal-semantic-index
{
 "mappings": {
   "properties": {
     "content": {
       "type": "semantic_text",
       "inference_id": ".jina-embeddings-v5-omni-small"
     }
   }
 }
}


POST multimodal-semantic-index/_doc
{
 "content": "'Kraft Dinner' is what Canadians call macaroni and cheese when prepared from a kit."
}


GET multimodal-semantic-index/_search
{
 "query": {
   "semantic": {
     "field": "content",
     "query": "Was bedeutet „Kraft Dinner" für Kanadier?"
   }
 }
}

要输入其他媒体，首先将其转换为 Base64 字符串，然后把该字符串放入与文本相同的字段中：

复制代码

POST multimodal-semantic-index/_doc
{
 "content": "data:image/png;base64,iVBORw0KGgoAAAAN[...]FTkSuQmCC"
}

对多媒体查询也做同样的处理：

复制代码

GET multimodal-semantic-index/_search
{
 "query": {
   "semantic": {
     "field": "content",
     "query": "data:audio/wav;base64,UklGRmQqkABXQVZF[...]9P+4/7j/"
   }
 }
}

如需通过 Jina API 访问，请参考 Jina AI 官网。

要使用分类器（classifier）、聚类（clustering）或语义相似度（semantic similarity）adapter，或将 embeddings 截断为自定义大小，请为你的项目创建自定义 inference endpoint，并按照其中的说明连接 Jina AI 模型并传递参数。

要在 jina-embeddings-v5-omni 中使用 BBQ，请遵循 BBQ 索引的相关说明。