基于多模态视觉模型和图文向量模型的工业图像知识库研究与应用

基于多模态视觉模型和 图文向量模型的工业图像知识库研究与应用

1 概述... 1

2 单一模型分析的局限性... 2

3 多模态视觉模型和图文向量模型的优势... 3

4 多模态视觉模型和图文向量模型应用场景... 4

5 多模态视觉模型和图文向量模型原理... 4

6 多模态视觉模型和图文向量模型应用... 8

6.1 图片知识库... 8

6.2 检索图片... 11

7.总结... 13

1 概述

工业现场每天持续产生大量图片数据，通常只能被动存档，有的甚至不存储，难以形成可复用的知识资产。构建工业图像知识库，是把图片转换为可检索、可分析、可追溯、可复用的数据对象，使现场图像具备知识表达能力和辅助决策价值。

基于多模态视觉模型和图文向量模型 构建工业图像知识库，能够同时解决两个关键问题**：**

一是把复杂工业图片解析为结构化语义信息，回答图片中是什么、处于什么场景、存在哪类异常、严重程度等；

二是把图片编码为可计算的向量特征，用于海量历史图片的相似检索与快速召回。

同时解决理解问题和检索问题，两者结合后，知识库既能读懂图片 ，也能找到相似图片。

图片知识库面向的应用场景具有显著工业共性，包括航天及电子制造中的PCB板质量问题、工业生产中的漏油与渗漏、跑冒滴漏、烟雾火焰粉尘蒸汽异常、设备表面污渍锈蚀烧蚀腐蚀、缺件错装松动变形裂纹、外观一致性检查，以及历史故障案例召回等。对于这些场景，系统既可以服务于缺陷排查，也可以服务于知识沉淀和工单辅助检索。

相比之下，OCR 识别 更擅长读取铭牌、标签、报码等显式文字信息，对复杂工业异常的空间关系、部件状态和故障语义表达能力有限 ；大量图片数据标注及训练模型 ，虽然能提高专用场景精度，但是建设周期长、迁移成本高、维护难度大。

基于多模态理解与图文向量表达的知识库方案，能够在不依赖大规模重新训练的情况下更快进入可用状态，适合项目早期快速落地与后续渐进优化。

图1 工业图像知识库示意

2 单一模型分析的局限性

（1）仅依赖多模态视觉分析时

虽然能够分析出较丰富的文字描述和结构化判断，但其结果通常更偏向语义解释，并且受限于同一图片语义空间的稳定表示 ，缺少适合大规模历史图片快速检索的统一索引能力 。在实际工程中，如果知识库中有成千上万张图片，仅靠文字摘要进行检索，检索效率和召回稳定性都难以满足现场使用要求。

单独使用多模态视觉分析还存在结果波动性问题。对于模糊、遮挡、低清晰度、边界模糊或多目标干扰的图片，不同时间生成的描述可能在措辞上不完全一致，进而影响结构化字段的稳定性。

（2）仅依赖图文向量模型时

系统可以较高效地完成向量召回和相似图片排序，但向量接近并不必然意味着业务语义一致 。例如两张图片在纹理和轮廓上相近，但一张是腐蚀、一张是污渍 ；或两张图构图相似，但设备类型不同、故障机理不同 。如果没有结构化语义字段参与约束，检索结果容易出现"视觉近似但业务不相关"的误召回。

此外，单一向量检索模型通常缺乏强解释能力。它可以给出相似度分值，却难以回答为什么命中、是哪些字段相似、是布局接近还是对象一致。这会直接影响一线工程人员对结果的信任度。

　　因此，无论是纯语义分析还是纯向量检索，单一模型都难以同时满足理解深度、检索效率、业务可解释性和工程稳态的综合要求。

3 多模态视觉模型和图文向量模型的优势

多模态视觉模型和图文向量模型结合后，可以形成"语义理解 + 数值检索 "的双通道能力。语义理解负责把图像转换为结构化知识 ，语义+向量检索负责在知识库中快速完成召回和排序，两者共同构成工业图像知识库的能力底座。

从项目实施角度看，该方案的优势非常明确：

首先，不需要前期投入大量人工进行图片数据标注和长周期训练，就可以直接基于系统已配置能力开展图像分析和检索，适合项目快速启动。

其次，系统输出不仅有相似分数，还有场景一致、对象一致、缺陷重合、结构相似等命中理由，便于人工确认和后续规则优化。

再次，统一的数据包结构天然适合接入向量数据库、知识库管理平台和工单系统，有利于后续扩展。

该方案并不是试图替代所有检测算法，而是把工业图片从**"非结构化附件"升级为"可理解、可比对、可追溯的知识对象"**。

在客户侧，这种能力可以明显缩短故障排查时间、降低经验依赖、减少实施难度和部署成本，并通过可解释的召回结果提升系统可信度和客户满意度。

4 多模态视觉模型和图文向量模型应用场景

该方案非常适合承担以下三类任务：

（1）相似故障案例召回。现场人员上传一张问题图后，系统从历史案例中快速返回相似图片及处置建议，用于排障参考。

（2）维修工单辅助检索。将维修图片与工单文本、历史案例图像联合检索，提升工单匹配速度和经验复用效率。

（3）图像初筛和人工复核排序。系统先以较高召回率筛出疑似异常图片，再由人工完成复核与确认，能够显著减少人工翻查成本。

同时，该方案不适合直接承担以下三类最终责任。

（1）像素级缺陷定位。该方案偏向检索、比对和语义辅助，不等于高精度像素级定位算法。

（2）安全事故自动告警闭环。对于烟火、泄漏等高风险场景，它可以作为辅助证据层。

（3）需要法规或质量审计背书的最终判定。系统输出更适合做辅助决策与证据组织，而不是直接替代合规判定流程。

因此，在工业项目中，最合理的定位是把该方案作为应用召回层、辅助诊断层和人工复核支撑层，与专用检测算法、规则引擎和人工审核共同构成分层体系。

5 多模态视觉模型和图文向量模型原理

（1）整体实现原理

系统整体由图像向量服务、结构化语义分析、知识库存储和混合检索四个部分组成。

图像向量服务负责对输入图片提取多类视觉特征，包括深层语义嵌入、布局、轮廓、纹理和颜色特征；当前实现中，这些特征既以独立向量形式保留，也会按照预设权重构造融合向量，作为统一检索表示与回退表示。

结构化语义分析负责输出场景类型、对象类型、拍摄类型、缺陷类型、严重程度、摘要、问题细节、原因与建议动作等结构化字段，用于补充向量难以直接表达的业务语义。

知识库存储负责将图片元数据、融合向量、各类独立特征、特征长度、权重参考以及结构化语义结果统一打包保存。

混合检索负责在查询阶段按检索模式计算综合得分，并返回带命中原因的可解释结果。

（2）图片分析流程

**第一步，**对输入图片进行校验，包括文件大小、分辨率和图片类型检查，避免异常输入影响后续处理。

**第二步，**图像向量服务提取深层语义嵌入、布局、轮廓、纹理和颜色特征，并进一步生成融合向量；结构化语义分析模块输出场景类型、对象类型、拍摄类型、缺陷类型、严重程度、摘要、原因与建议动作等字段。两类结果在逻辑上相互独立，当前实现中按顺序调用，再在记录层统一汇合。

**第三步，**将融合向量、独立特征、结构化字段和元数据一并写入知识库，形成可检索的数据包。

（3）图片检索流程

查询图片按同样方式生成查询数据包。检索时，系统不会只计算单一全局向量的相似度，而是分别计算各类视觉特征相似度和结构化字段相似度，再根据当前模式进行分层加权。

模式说明

overall 模式采用较均衡的视觉和语义配置，适合通用相似案例召回；

asset 模式更关注对象类型、关键部件和外观结构，用于设备或部件级别的相似样本检索；

layout 模式更关注空间布局和拍摄视角，在视觉侧明显提高布局特征权重，并在语义侧提高拍摄类型权重。

当前实现中，混合层权重分别为：overall = (0.62, 0.38)，asset = (0.50, 0.50)，layout = (0.44, 0.56)，前项为视觉层权重，后项为语义层权重。

（4）视觉层相似度计算

当前实现对每一类视觉特征统一采用归一化后的非负余弦相似度进行计算，再按模式权重做加权平均。视觉层基础得分可表示为：

S_v^base = (Σ_i w_i · sim_i) / (Σ_i w_i)

其中，i 遍历深层语义嵌入、布局、轮廓、纹理和颜色等视觉特征；w_i 为第 i 类特征在当前模式下的权重；sim_i 为第 i 类特征的相似度，取值范围为 $0, 1$ 。在此基础上，系统还会根据布局、轮廓、纹理等结构特征的一致性计算视觉惩罚项 P_v，并在非 layout 模式下结合颜色一致性做附加修正，因此最终视觉得分为：

S_v = S_v^base · P_v

这种两段式计算方式能够避免单一语义向量很高、但结构形态明显不一致时出现误召回。

（5）语义层相似度计算

结构化语义层会分别计算场景类型、对象类型、拍摄类型、部件类型、缺陷类型、严重程度和摘要等字段的相似度，并仅对当前可用字段做归一化加权。基础语义得分可表示为：

S_a^base = (Σ_j α_j · score_j) / (Σ_j α_j)

其中，j 遍历结构化字段；α_j 为字段权重；score_j 为字段相似度。分类字段可采用一致、部分匹配或不一致的离散评分，严重程度可采用等级距离映射，摘要可采用文本相似度。与原始草稿不同，当前实现中的语义修正项并不是可用字段权重占比，而是基于关键字段失配的乘性惩罚。例如场景类型、对象类型、拍摄类型冲突时，系统会逐步降低语义得分；当缺陷类型完全不重合时，也会触发附加惩罚。最终语义得分可表示为：

S_a = S_a^base · P_a · C_a

其中，P_a 表示关键字段失配惩罚项；C_a 表示置信度平滑因子。当前实现中，C_a 不是直接使用单次模型输出置信度，而是对查询记录和候选记录的置信度做平滑处理，其形式可写为：

C_a = 0.75 + 0.25 · mean(c_q, c_r)

若某条记录缺少有效置信度，则以 0.5 作为回退值参与计算。这样做的目的是降低单次语义分析波动对排序结果的放大效应。

（6）最终混合得分与退化机制

当结构化语义字段整体不可用时，系统直接退化为纯视觉检索：

S_h = S_v

当语义字段可用时，系统按照当前模式的混合权重对视觉层和语义层得分做线性融合：

S_h = β_v · S_v + β_a · S_a, 且 β_v + β_a = 1

需要注意的是，layout 模式的布局优先主要体现在视觉子项中提高布局特征权重、以及在语义子项中提高拍摄类型权重，而不是简单依赖更高的最终视觉混合系数。

因此，原先 layout 模式下提高 β 以强调视觉结构的表述并不准确，修订后应以分层权重解释其工作机制。

（7）结果可解释性

为了增强业务可解释性，返回结果中会附带命中原因 ，例如场景类型一致、对象类型一致、拍摄类型一致、缺陷类型重合、严重度接近，以及布局或轮廓特征相似度较高等。该机制不仅输出排序结果，也输出支撑排序的证据，便于人工复核、经验沉淀和后续规则优化。

6 多模态视觉模型和图文向量模型应用

6.1 图片知识库

知识库中的每张基础图片都需要先经过结构化分析和向量分析，再封装为统一数据包后入库。数据包至少包含图像标识、路径、名称、融合向量、各特征长度、特征权重、结构化分析结果以及文件元数据。这样设计的好处是，知识库既保留了原始图片资产，又形成了面向检索和分析的计算表示。

例如知识库包括以下4张图片：

图2 基础图片 1.png

图3 基础图片 2.png

图4 基础图片 3.png

图5 基础图片 4.png

经过多模态模型和向量模型分析后，统一数据包结构如下：

复制代码

 {
    "image_id": "1.png",
    "image_path": "1.png",
    "image_name": "1.png",
    "vector": [
        0.007269971538335085,
        ......
        0.29445040225982666
    ],
    "feature_lengths": {
        "semantic": 1024,
        "layout": 232,
        "contour": 25,
        "texture": 128,
        "color": 37
    },
    "feature_weights": {
        "semantic": 0.4,
        "layout": 0.22,
        "contour": 0.16,
        "texture": 0.14,
        "color": 0.08
    },
    "analysis": {
        "scene_type": "产线巡检",
        "classify_type": "电路板",
        "shot_type": "局部异常图",
        "component_types": [
            "电路板"
        ],
        "defect_types": [
            "异物"
        ],
        "severity": "low",
        "summary": "电路板表面存在异物",
        "confidence": 0.9,
        "function_type": "unknown",
        "issue_details": "电路板表面有异物停驻或烧焦，存在污染风险",
        "root_cause": "车间卫生安全管理不当，导致异物进入生产区域",
        "repair_actions": [
            "清除电路板表面异物",
            "清洁电路板并检查线路完整性"
        ]
    }
}

上述数据结构说明，工业图像知识库并不是单纯保存图片文件，而是保存图片的多维表达结果。这样一来，系统既可以基于向量完成相似召回，也可以基于结构化语义完成解释、过滤和业务归类。后续接入向量数据库后，检索效率和库规模还可以进一步扩展。

6.2 检索图片

在检索阶段，用户上传一张查询图片，系统会先为该图片生成多模态模型和向量模型分析后的查询数据包，再与知识库中的 N 张图片做比对，最后返回满足阈值要求的候选结果。返回内容不仅包含命中的图片路径和综合分数，还包含分数拆解、结构化分析结果和命中原因，用于人工确认。检索图片成功后返回的简要数据包：

复制代码

{
  "input_image_path": "2.png",
  "indexed_count": 2,
  "search_mode": "overall",
  "min_score": 0.55,
  "matches": [
    {
      "image_id": "2.png",
      "image_name": "2.png",
      "image_path": "2.png",
      "score": 0.879245,
      "score_breakdown": {
        "vector.semantic": 1.0,
        "vector.layout": 1.0,
        "vector.contour": 1.0,
        "vector.texture": 1.0,
        "vector.color": 1.0,
        "vector.base": 1.0,
        "vector.penalty": 1.0,
        "vector.final": 1.0,
        "analysis.scene_type": 1.0,
        "analysis.classify_type": 1.0,
        "analysis.shot_type": 1.0,
        "analysis.component_types": 0.0,
        "analysis.defect_types": 0.5,
        "analysis.severity": 0.666667,
        "analysis.summary": 0.531034,
        "analysis.base": 0.699718,
        "analysis.penalty": 1.0,
        "analysis.confidence_factor": 0.975,
        "analysis.available": 1.0,
        "analysis.final": 0.682225,
        "hybrid.final": 0.879245
      },
      "analysis": {
        "scene_type": "产线巡检",
        "classify_type": "电路板",
        "shot_type": "局部异常图",
        "component_types": [
          "PCB基板",
          "焊点区域"
        ],
        "defect_types": [
          "腐蚀"
        ],
        "severity": "medium",
        "summary": "电路板局部区域存在腐蚀现象",
        "confidence": 0.9,
        "function_type": "unknown",
        "issue_details": "红色圈标区域存在明显腐蚀，焊点及PCB基板表面出现暗色斑驳痕迹",
        "root_cause": "unknown",
        "repair_actions": [
          "清除腐蚀区域并重新焊接",
          "更换受损电路板"
        ],
        "raw_response": "{\n  \"scene_type\": \"产线巡检\",\n  \"classify_type\": \"电路板\",\n  \"shot_type\": \"局部异常图\",\n  \"component_types\": [\"PCB基板\", \"焊点区域\"],\n  \"defect_types\": [\"腐蚀\"],\n  \"severity\": \"medium\",\n  \"summary\": \"电路板局部区域存在腐蚀现象\",\n  \"confidence\": 0.9,\n  \"function_type\": \"unknown\",\n  \"issue_details\": \"红色圈标区域存在明显腐蚀，焊点及PCB基板表面出现暗色斑驳痕迹\",\n  \"root_cause\": \"unknown\",\n  \"repair_actions\": [\"清除腐蚀区域并重新焊接\", \"更换受损电路板\"]\n}"
      },
      "metadata": {
        "suffix": ".png",
        "file_size": 987434,
        "sha256": "e0b67ded5e1d9e9d04d0e48c4d193882932517be2ff52bf7df82eae622376f53"
      },
      "search_mode": "overall",
      "min_score": 0.55,
      "match_reason": "混合分数 0.879 达到 overall 模式阈值 0.550；scene_type 一致：产线巡检；classify_type 一致：电路板；shot_type 一致：局部异常图；defect_types 重合：腐蚀；severity 接近：query=high, match=medium；布局特征相似度高：1.000；轮廓特征相似度高：1.000",
      "match_reason_items": [
        "混合分数 0.879 达到 overall 模式阈值 0.550",
        "scene_type 一致：产线巡检",
        "classify_type 一致：电路板",
        "shot_type 一致：局部异常图",
        "defect_types 重合：腐蚀",
        "severity 接近：query=high, match=medium",
        "布局特征相似度高：1.000",
        "轮廓特征相似度高：1.000"
      ]
    }
  ]
}

从这个结果可以看出，系统检索并非只看单一向量值，而是同时考虑视觉特征相似度和结构化语义相似度。命中原因的存在，使工程师能够快速判断结果可信度，并决定是否调用历史工单、维修经验或后续复核流程 。这种"可检索 + 可解释"的返回方式，是工业图像知识库真正能够进入生产使用的重要前提。

7.总结

基于多模态视觉模型和图文向量模型构建工业图像知识库，是一种兼顾落地速度、检索效率和业务可解释性的务实路线。它非常适合相似案例召回、维修工单辅助检索和人工复核排序等任务，也能够为工业知识沉淀提供统一的数据底座。

同时，这一方案对模型和参数治理提出了明确要求。不同场景下，特征权重、模式权重、阈值、惩罚系数和置信度策略都需要结合实际数据持续调整，才能稳定提升知识库的召回率与业务相关性。

8.参考文章

（1）硬件网关：https://mp.weixin.qq.com/s/iKMqn62YIhBlXjGtY2wKXQ。

（2）物联网（IOT）：https://mp.weixin.qq.com/s/5u4L8fItaFpIbVYOlxbmGg。

（3）视觉分析（Vision）：https://mp.weixin.qq.com/s/SiiuXTTGplTAERRYyCmGCQ。

（4）大模型智库（AiMind）：https://mp.weixin.qq.com/s/SH_q2k_zbQ-pcd05zj86-g。

物联网&大数据技术 QQ群：54256083

物联网&大数据项目 QQ群：727664080

QQ：504547114