大模型时代的工业质检：技术革新与实践探讨

工业 AI 质检作为制造业转型的重要驱动力，无论是在高科技领域还是日常消费品的生产中，都发挥着至关重要的作用。从 20 世纪 60 年代起，自动化质检的概念开始在德国、美国和日本等工业发达国家兴起，而中国企业最初也从代理进口设备起步，逐渐发展出了本土的质检解决方案。

那么，以互联网起家的公司如腾讯，如何能够在工业领域中找准自己的定位并取得进展？在 6 月举办的 ArchSummit 全球架构师峰会上，腾讯云高级产品专家王刚 介绍了腾讯在工业 AI 质检领域的初心、发展历程以及技术创新。可以看到，腾讯云及优图实验室团队在这一领域的探索和实践，不仅延续了国际先进的质检技术，还融入了自主研发的深度学习算法，从而推动了工业 AI 质检技术的进步。

InfoQ 将于 8 月 18-19 日举办 AICon 上海站，聚焦大模型训练与推理、AI Agent、RAG 技术、多模态等前沿议题，汇聚 AI 和大模型超全落地场景与最佳实践。更多精彩议题可访问官网了解：https://aicon.infoq.cn/2024/shanghai/track

以下是演讲实录（经 InfoQ 进行不改变原意的编辑整理）。

工业 AI 质检的

初心与发展历程

你可能第一次听说腾讯这样的互联网公司涉足工业领域。这种转变其实可以追溯到 2018 年，当时互联网行业广泛讨论"互联网下半场"概念。那时，ToC（面向消费者）的互联网流量增长已经放缓，而产业互联网则被视为一个需要深耕的新领域。

在国家对智能制造和工业 4.0 的大力倡导下，腾讯开始探索工业领域。起初，我们尝试了多个不同的方向，包括生产、供应链、销售和服务等环节。最终，我们发现，基于我们现有的 AI 技术和数据能力，与工业 AI 质检环节的结合最为紧密和有效。

工业质检是现代工业生产中不可或缺的一部分。无论是高精尖的 3C 产品和半导体，还是我们日常生活中常见的矿泉水、瓶盖、纸杯等，几乎所有的现代工业产品在生产流程的最后阶段都会进行自动化的质检。自动化质检的概念可以追溯到 20 世纪 60 年代和 70 年代，最初在工业发展较为成熟的德国、美国和日本等国家开始兴起。这些国家的一线公司至今仍是质检行业的领头羊。中国企业最初是代理海外的自动化质检设备，包括硬件、软件和传感器等。在这个过程中，许多本土的质检行业新兴上市公司应运而生。

在生产线上，自动化光学检测设备（AOI）是质检环节的关键设备，它通常包括光源、相机等核心部件。光源的选择对于成像效果和质检至关重要，不同的光源类型会直接影响到产品成像的质量和检测的准确性。而工业相机负责捕捉产品图像，为后续的质检分析提供数据。

以手机为例，每一个零件在生产过程中都需要经过严格的质检，因为即使是微小的偏差或划痕，也可能直接影响到最终产品的质量。在产业链中，如果上游的产品未能满足良率要求，下游环节可能会拒绝接收，这不仅会导致合同违约，还可能影响到公司在整个产业链中的地位。

AOI 设备是自动化光学检测的核心，它在传感器布置稳定之后，还需要考虑自动化设备或夹具的配置。这涉及复杂的机械结构，比如选择是使用一个固定不动的机械臂直接进行拍摄，还是采用快速飞拍技术，或者设计一个六面体旋转机构。这些选择往往取决于成本因素，因为不可能针对每一个批次的产品都设计不同的自动化设备，毕竟这些设备本身是有造价和成本的。理想的情况是，能够开发出一种标准设备，它能够适应不同时间、不同客户的需求，从而实现成本效益和操作效率的最大化。

腾讯优图 AI 技术的落地场景

当硬件部分的传感器布置和自动化设备配置完成后，接下来就进入到软件和算法的关键环节。正是在这一环节，腾讯在这个行业中所做的工作开始显现。机器视觉质检技术自 20 世纪 60 年代以来就已存在，但在很长一段时间里，它并未涉及到我们现在熟知的深度学习算法。因为深度学习算法的成本较高，且应用流程较长，因此许多企业更倾向于使用传统的算法。这些传统算法包括开源的 OpenCV，以及一些商业化的软件，例如德国 MVTec 公司提供的 HALCON 软件，其商业模式是将贴合工业质检需求的算法以 SDK（软件开发工具包）和及相关代码的方式提供给客户。

尽管工业机器视觉已经成为一个成熟的产业，但它在解决复杂外观缺陷方面的能力有限。传统上，机器视觉主要能够识别产品的尺寸、数量、形状等基本属性，以及一些明显的缺陷，如大划痕。然而，随着工业产品的日益精细化，尤其是在 3C、半导体、光伏以及动力锂电池等领域，对产品质量的要求越来越高，这为新兴企业提供了进入行业的机会。

近年来，无论是在工业自动化、智能制造领域的论坛，还是在工业博览会、VisionChina 等展会上，我们都能看到一些新兴的创业公司崭露头角。例如，商汤科技虽然不是专注于工业质检领域，但也投入了大量资源进行研发。在 BAT 等大型企业中，腾讯在工业质检领域的投入最深，也最为坚持，取得了显著的成果。此外，还有一些专门针对深度学习在复杂缺陷检测方面的创业公司，它们正是看准了这一市场需求，致力于开发更先进的技术来满足工业质检的高标准。

腾讯进入工业质检领域的契机，源于公司在深度学习方面的技术储备和应用经验。 我们面临的商机往往是其他企业不愿触及的难题。以 2019 年底至 2020 年中的一个案例为例，腾讯在质检设备领域的探索已有一年多的时间，尽管已经在某些面板头部企业中实现了落地应用，但从商业角度来看，尚未形成规模化复制。随后腾讯与广州的一家自动化公司建立了合作关系，这家公司在行业深耕多年但经营遇到挑战。双方的合作可以说是"金风玉露一相逢"，互利共赢。

这家自动化公司与腾讯合作，共同为上海一家生产智能手机零部件的头部厂商解决了一个长期悬而未决的检测需求。这个需求是该公司的全球副总裁已经提出两年但行业内多家企业均无法解决的难题。这个难题涉及到手机摄像头支架的检测，需要拍摄 80-90 张照片并旋转拍摄，以覆盖 30 多种缺陷，且检测标准极高，要求零漏检，同时过杀率也要极低。然而，人工检测存在主观性强、易疲劳等缺点，而且人工成本高、人员流动性大。在行业中，有所谓的"黄金眼"，即从业 5 年以上的资深质检员，他们的年收入可达十几万，但一旦流失，对工厂而言风险很大。

腾讯与合作伙伴经过 4 个月的攻坚，更换了三波算法，最终成功解决了这一难题。过程中发现，最关键的不是算法架构、调参或训练，而是数据标准对齐的过程，即缺陷定义的统一。这个案例的成功，不仅让腾讯在工业质检领域实现了规模化复制，迅速将业务营收提升至亿级，也帮助合作伙伴公司实现了绝地反击，实现逆势快速增长。

基于这样一个成功的合作案例，腾讯在 3C 行业的工业质检领域取得了显著的进展。随后，我们又将业务拓展到了锂电新能源行业，特别是与某动力电池龙头企业的合作，我们面临了极耳翻折检测的挑战，这是动力电池生产中一个非常关键的环节。极耳翻折部件具有柔性，类似于布料，在拍照、打光和夹具固定等方面都存在一定的难度。尽管该项目极具挑战性，但我们非常幸运地与苏州一家工业自动化创业公司达成合作，携手攻坚。也正是这次成功的合作，助力了该创业公司抓住契机、成功上市。继锂电新能源行业之后，腾讯云质检团队继续扩大业务范围，进入了光伏、汽车和半导体等更多行业，进一步巩固了在工业 AI 质检领域的领先地位。

工业 AI 质检面临的

挑战与核心目标

在近几年的实践中，我们开始深入理解工业 AI 质检的核心问题。尽管工业工厂对质检的重要性不言而喻，但具体到技术层面，我们可以从四个关键维度来分析这个问题：缺陷的位置、缺陷的像素、缺陷的类型，以及缺陷的量化，即对缺陷的测量性评估。

在 ChatGPT 发布之后，AI 领域似乎迎来了一个全新的时代。我个人的经历也与这场技术变革紧密相连。我在北京大学攻读计算机硕士期间，从 2014 年、2015 年开始接触深度学习。那时，计算机视觉的四小龙------商汤、旷视、云从、依图等企业无疑是 AI 落地最受瞩目的焦点。

毕业后我加入了腾讯，担任算法工程师。在深度学习的视觉领域工作一段时间后，我开始觉得在视觉方面可探索的空间有限，尤其是在参数调整方面。因此，我逐渐将注意力转向了 NLP 领域。到了 2020 年左右，NLP 领域出现了重大突破，BERT 模型和谷歌的相关工作非常火热，而 GPT 1.0 虽然已经发布，但当时并没有引起太大的关注。

技术发展到今天，大模型和多模态大模型在实现 AGI 的设想上取得了显著进展，但工业缺陷质检问题依然是一个冰冷且枯燥的感知问题。原因在于，" Defect（缺陷）"是介于 Object（对象）和 Pixel（像素）之间的复杂语义。而缺陷的定义本身是一个强业务导向的问题------ 同样的划伤，出现在瓶盖上、手机背板上或光伏面板上，其意义和影响是截然不同的。因此，在模型训练过程中，挑战主要来自于如何理解和处理这种复杂的语义差异。

针对工业缺陷质检问题的解决，经过数年的探索，我们认为可以从两个不同的维度来概括：检测能力和使用效率。

从商业角度来看，我们必须向客户证明我们能够解决他们的质检问题。在复杂缺陷的外观检测方面，腾讯的落地实践无疑是开创性的，可以说是行业内最早或极少数成功实现这一目标的公司之一。

当然，这一成就的背后是不计成本的投入。当业界的许多公司，无论是创业公司还是老牌企业，都认识到这个问题是可以解决的时候，真正的挑战才刚刚开始。做生意的本质是成本控制，尤其是在制造业，解决问题的效率、成本就成为了关键考量因素。

优图工业 AI 算法体系概览

腾讯优图 AI 算法体系如下图矩阵所示。这里详细介绍一下 1 和 4，即成像算法和通用视觉模型的应用，这两者是工业 AI 质检领域的关键技术，基于业务专有技术构建的基础能力，并且与当前行业最前沿的发展趋势紧密相连。

成像能力对于工厂环境来说至关重要。在实际操作中，我们不可能不考虑成本地使用最高端、最贵的光源和相机。很多时候，由于成本限制，拍摄效果可能并不理想。例如，如果一个场景存在 168 种缺陷，而一个零件需要拍摄 800 多张照片，这就对拍摄速度提出了很高的要求。在这种情况下，我们可能只能选择使用成本适中的设备。面对成本和成像效果的双重挑战，我们需要开发一些算法来提高成像可见度和缺陷的可识度。这就需要我们在成像维度上进行创新，运用多种技术手段，包括传统视觉算法、深度学习，甚至是 3D 点云技术，便于后续的检测和分析。

自 2018 年起，我们开始涉足这个领域，在这个过程中，Transformer 架构的出现为我们提供了重要的启示，尤其是像 VIT（视觉变换器）和 TinyVIT 这样的模型，它们在视觉处理方面展现出了巨大的潜力。我们自身也在积极开发通用视觉模型，这些模型受到了 GPT 预训练方法的启发，我们认识到在工业质检领域，如何将这种有效性发挥出来是一个关键问题。

大模型时代的 AI 质检方法

在讨论工业 AI 质检的算法发展时，我们发现基础算法的搭建相对容易，但关键在于如何设定演进的目标。目前，我们的发展趋势首先是从全监督学习开始，这需要相对较多的样本。随着技术的进步，我们已经能够在部分场景中实现少样本、无监督的算法，或者直接免训练的算法。

我们正在向围绕质检问题的通用多模态模型迈进。在这个过程中，引入了一些新的概念，比如"Visual Prompt"（视觉提示）。这种方法通过提供视觉提示，使模型能够在没有经过传统训练的情况下识别缺陷。这种方法的关键在于利用视觉提示来引导模型理解图像内容，从而实现对缺陷的识别，这在减少训练需求和提高模型适应性方面具有显著的优势。

缺陷感知通用模型

在具体讨论缺陷感知通用模型时，我们可以看到它们在架构上与 GPT-4o 或更早的 GPT-4v 有所不同。这种差异主要源于我们面对的问题特性不同。我们的问题首先更聚焦，关注的是缺陷级别的语义理解。

GPT 和 ChatGPT 的核心技术之一是 instruct（指令式学习），这涉及到如何定义和梳理数据以及任务的分类。在缺陷检测中，这需要结合工业门类进行详细分析。具体到工业门类，我们不仅要参考国家编码名册中的分类，还要深入到材质层面。材质的识别往往需要通过对比来进行。以手机为例，其零部件、模组和成品分别对应不同的工序。对于智能手机零部件，比如划伤，可能与锂电池、轴承或汽车座椅上的划伤在缺陷形态和纹理上有所相似。如果这些缺陷可以归为一类，那么从算法的角度，我们可以将其定义为同一个 instruct 类型，并激活相同的应用区域。

在 AI 领域，尤其是在自然语言处理（NLP）方面，对于缺陷质检问题，仅仅实现对话式的方式可能更像是一个 Demo（演示）。真正的挑战在于如何在对话式应用中实现深度的语义理解。例如，当用户上传一张农夫山泉瓶盖的图片并询问是否有划伤时，这个看似简单的 prompt 实际上包含了丰富的信息。首先，用户明确了材质（瓶盖），其次，用户指出了希望识别的缺陷类型（划伤）。通常，我们可以跨材质梳理出 100 到 200 个常见的缺陷类型，这些缺陷的描述是可以穷举的。结合材质，我们就有可能激活跨模态模型，实现缺陷识别。

这与市面上常见的 AI 助手的工作原理类似。当我们向 AI 助手提出问题时，背后实际上是激活了对应的模型。比如，当我们请求编写一个动态规划的 Python 程序时，激活的是代码生成部分；当我们询问天气情况时，激活的可能是天气信息部分；这些原理虽然相同，但难度主要体现在业务场景中的专业知识。

核心架构：LPM（Large Perceptron Model）

在讨论最核心的部分，即 LPM（Large Perceptron Model）的构成时，我们必须从应用的角度和算法训练的过程两个方面来理解。首先，从应用的角度来看，LPM 需要能够处理 instruct（指令式学习）的区别，这意味着模型需要根据不同的指令来调整其行为和输出。

其次，从算法训练的角度来看，我们需要自己去梳理特定领域的大型视觉模型（domain-specific Large Vision Models，简称 LVM）。这是一个非常强的人工过程，需要大量的专业知识和细致的工作。

新范式下的工业 AI 质检应用

我们致力于利用最前沿的技术和已有的应用落地经验，推动质检行业进入一个新的发展阶段。这个新范式的核心是实现复杂外观检测的免训练或零样本快速应用。这不仅是许多客户的迫切需求，也是行业发展的必然趋势。

新范式意味着能够使质检过程无需复杂的训练过程，实现快速唤醒和应用。这对于中国的制造业尤为重要。中国制造业的多样性和复杂性使得许多场景尚未实现机器视觉或 AI 质检。随着人口红利的消失和劳动力成本的上升，制造业正面临转型的压力。同时，制造业的转移趋势也促使我们必须提升自身的竞争力。这种转型不仅符合国家的大战略规划，而且在商业逻辑上也非常合理。

新范式的实现本质上是简化应用过程并大幅降低成本。制造业的利润已经非常微薄，人力成本是其主要开支之一。在这个新范式下，帮助客户积累和利用其领域数据资产变得尤为重要。

在新范式下，我们的目标是让客户的设备在现场就能进行快速推理，而不需要额外的硬件成本或复杂的工序。这样，客户的工程师不需要学习太多新知识，就能在现场解决质检问题。这种应用方式不仅提高了效率，也降低了成本，使得制造业能够更好地应对当前的挑战。

在新范式下的应用，我们可以通过对话的方式，利用文本或视觉提示来定义缺陷并实现自动学习。这种方法现在已被大家广泛了解。作为一名产品经理，我在 AI 领域的浪潮中经历了许多变化，现在我希望将这个问题与最前沿的产品设计方法结合起来。

我们不仅考虑单一 Agent（代理）的提示，还在思考如何结合多个 Agent（代理），形成一个终身学习的系统，让每个质检设备能够自发地成长为像"黄金眼"那样的高级质检员。这样一套方法已经开始在一些具体场景中应用，但我们的团队也清楚，这种新范式的落地不可能一蹴而就，它需要一个过程，目前我们这种零样本免训练的范式暂时只能解决一些相对聚焦的质检问题。

这其中还涉及到一个商业逻辑，即高附加值和低附加值的平衡。从商业角度来看，我们会权衡这个技术的落地节奏，我们的设备商伙伴也会考虑这个节奏。我认为，这门生意在商业和技术方面都达到了一个很好的平衡，它的逻辑非常务实。甚至向最高层汇报，也从不担心他会质疑我们生意的逻辑。不像其他生意，老板可能会质疑你只是在讲故事。今天的高层管理者对故事非常反感。

一体化方案：工业 AI 质检交钥匙方案

在讨论我们现有的产品方案时，可以看到这些方案涵盖了光、机、电、软、算等多个方面。我们与合作伙伴进行了明确的分工。我们主要负责算法和软件的开发，而硬件部分则交由我们的设备合作伙伴来完成。

我们也在努力开发自己的工业 AI 质检软件并推向市场。跟工业领域的老牌设计和管理软件 EDA 和 PLM 一样，质检领域也有一些已经深入市场并被广泛使用的软件。我们希望通过新技术的引入，使我们的软件在工业质检领域乃至更广泛的工业智造领域中站稳脚跟，成为一款有影响力的工业软件。

这个项目已经进行了好几年，软件的开发也已经有一到两年的时间，目前已经取得了一些初步的成效。然而，我们仍面临着很长的路要走。正如之前提到的，如果没有新范式的出现，工业客户不会轻易更换他们的系统。这是因为他们的员工精力有限，部分员工对于新的用户界面变化可能会感到不适应。他们可能会问："什么是微服务？"他们需要的是 C# 的原生软件开发工具包，而不是其他复杂的新技术。在 ToB 领域，有时你需要更多地考虑客户的需求和习惯，以确保他们能够接受和适应新的技术和产品。

写在最后

我们最近在工业软件领域取得了一些成绩，这主要得益于我们的软件具有很强的业务适配能力和兼容性。这种业务属性使得我们的软件具有天然的门槛，形成了一种护城河。从产品面向的场景来看，我们可以分梯度、分难度，并且也分价格来提供对应的功能模块。尽管我们的软件是云厂商的产品，但我们的客户群体多样，因此我们提供了多端支持，包括公有云、私有化部署、Linux 集群以及 Windows 单机。未来，我们还可能会将软件扩展到智能相机等一些嵌入式终端上。

在业务开展过程中，作为核心技术支撑的腾讯优图团队，也一直在不断进步。基本上每半年我们都会有一些最新的研究成果以论文的形式发表，比如今年的 CVPR（计算机视觉与模式识别会议）和 NeurIPS（神经信息处理系统会议），我们也有一些对应的文章。对于学术界的朋友，如果对我们的工作感兴趣，也非常欢迎交流、关注和引用。

在整个行业的影响力的提升上，这几年我们也取得了一些成绩。与工信部、中电院以及 IDC 等官方和权威市场调研机构的合作，也让他们感受到了腾讯在工业 AI 质检领域的付出和努力，也取得了一定的影响力。这种认可和影响力是我们持续投入和创新的动力。