AI-基于RAG架构的分层AI物资编码治理方案

一、物资编码的核心业务意义

对于多分子公司、多业务板块的中大型集团而言，物资编码是企业物资管理体系的核心基石，更是串联采购、仓储、库存、财务核算全业务链条的统一"标准化语言"，是企业实现物资精细化、体系化管理的前提与根基。

在日常经营流转中，采购环节依托标准化物资编码提报需求、比价招标、下单履约，杜绝物资描述歧义，保障采购物资与业务需求精准匹配；仓储环节依靠编码完成物资入库、出库、调拨、盘点全流程管控，实现账物对应、库存可查可溯；财务环节以物资编码为唯一统计维度，开展成本归集、费用核算、资产盘点与账务审计，保障企业物资资金数据真实准确、口径统一。

规范统一的物资编码，能够打破各子公司、各部门之间的信息壁垒，统一物资识别标准，规避口头描述、俗称、简写带来的沟通偏差与业务差错。可以说，物资编码的规范性、统一性、准确性，直接决定了集团物资管控效率、供应链流转质量与财务数据可信度，是企业规模化、规范化运营的核心基础。

二、企业现场真实规格乱象根源

在集团多分子公司的实际物资管理场景中，工业通用物资的规格填写、编码创建长期存在严重混乱，是造成一物多码、检索失效、编码粒度失控的核心源头，各类物资普遍存在表述不统一、录入不规范的问题。

其一，行业专用符号混用、缺失，自定义写法泛滥。各类专业物资均有国标专属标识与书写规范，但一线人员普遍随意简化替换。以常用角钢为例，国标专属符号∠常被省略、替换或直接删除，员工有的纯写数字参数，有的用"角铁""角钢"文字替代专业符号，全集团书写口径杂乱无章，无统一标准。同时直径参数普遍存在符号混用问题，Φ、D、中文"直径"随意替换，进一步加剧规格表述混乱。

其二，规格参数随意简写、关键维度缺失。不同品类物资拥有固定的标准参数结构，但员工普遍凭经验简写，缺失核心必填参数。例如角钢分为等边角钢、不等边角钢两类，国标要求分别采用三段式完整格式标注尺寸与厚度，现场却大量出现 56×6、∠125×10 等两段式残缺写法；再如截止阀 J41H-10C DN40 PN10，员工检索录入时常漏输参数、颠倒DN通径与PN压力的排序，导致物资规格信息残缺、表述各异。

其三，各岗位、各子公司编码粒度与规格认知完全不统一。全员对物资规格的必填参数、细化尺度、禁用内容没有统一认知，差异化极大。部分人员过度细化编码，将设备代际、非核心容量、品牌厂家等无关维度纳入规格，不仅造成编码数量无序暴增，还会因写入厂家型号变相形成定向采购，失去采购比价空间；也有人员过度粗放，简化核心必填参数，甚至将财务价值、使用价值差异较大的物资合并为同一编码。

其四，传统检索机制固化，放大编码乱象恶性循环。传统数据库检索依赖精准字符完全匹配，对格式、符号、语序、参数完整性高度敏感。只要用户输入不规范、参数不全、顺序错乱，就会出现检索不到、匹配错误、漏匹配的情况。员工无法查询到已有历史编码，只能反复新增编码，最终形成"检索失败---新增非标编码---数据愈发混乱"的闭环问题。

三、编码细粒度管控的深层业务问题

物资编码管理的核心难点，并非编码体量庞大，而是全集团缺乏统一、可落地的规格判定与粒度管控标准，编码创建、规格录入全凭人工经验判断，无体系化约束。

从业务管控维度来看，人工认知偏差直接导致编码尺度失控：无关参数过度细化、核心参数过度简化、非标信息随意录入的问题频发，造成编码数据冗余泛滥、分类错乱。同时，很多员工对编码核心逻辑认知存在误区，单纯以实物外观作为编码划分依据，忽略物资使用价值、财务价值的核心判定标准，极易出现"相似物资错分编码、差异物资共用编码"的问题。

从集团管控维度来看，即便企业设置专职编码管理人员，也无法覆盖全行业、全专业的物资品类知识。物资品类繁杂、跨专业属性强，单人很难精通所有物资的国标规范、规格组成与分类细节，人工审核纠错存在天然能力上限，无法从根源杜绝长期积累的编码乱象，最终导致采购、仓储、财务全链路数据失真，影响库存管控、成本核算与供应链流转效率。

四、基于分级AI+RAG架构的标准化治理方案

针对集团物资编码规格混乱、粒度失控、检索失效、人工管控乏力等核心痛点，本系统创新性采用品类分级提示词固化 + AI实时规格校验 + RAG语义检索的智能化架构，构建"事前规范、事中校验、事后治理"的全链路管控体系，彻底解决传统管理短板。

第一，全品类分级规则固化，实现编码标准数字化落地。系统支持在大类、中类、细类维度，为每一类物资配置专属标准化提示词，将各类物资的国标书写格式、必填参数、专用符号规范、粒度细化标准、禁用录入项等管控规则，全部固化至系统后台。例如针对角钢型材，明确强制标注∠专业符号、完整三段式参数，禁止残缺简写；针对阀门类物资，规范型号、通径、压力的标准录入形式，禁止混入厂家、品牌等非标信息。所有规则由集团统一制定、统一迭代，彻底摆脱人工经验依赖，实现全集团编码规格、粒度标准统一。

第二，新增编码AI实时校验，事前杜绝非标劣质数据。员工新增物资编码、录入名称与规格信息时，系统将自动匹配当前品类的固化规则，依托大模型严格按照集团统一标准完成智能校验。可精准识别参数缺失、符号错乱、简写违规、粒度失衡、非标信息录入等各类问题，并自动输出标准化修正建议。让AI成为标准化、无偏差的智能审核载体，从源头阻断不规范编码产生，严控新增数据质量。

第三，RAG分级语义检索，兼容多样化不规范输入习惯。系统采用"向量粗筛+大模型精判"的RAG分级检索架构，彻底摒弃传统字符精准匹配的局限。第一层通过向量检索快速召回海量相似物资，保障检索效率；第二层依托品类专属规则与大模型语义研判能力，智能适配用户参数不全、语序颠倒、符号混用、随意简写等不规范输入场景，精准识别物资真实属性，大幅提升检索命中率，从根源终结"检索不到、重复建码"的恶性循环。

第四，历史编码质量智能诊断，完成存量数据闭环治理。针对集团海量历史非标编码数据，系统依托各类目固化的规则提示词，实现批量自动化筛查，智能识别规格不规范、参数缺失、格式错误、粒度混乱、跨类错配、重复冗余等各类问题，并自动生成可视化编码质量分析报告，为存量数据整改、编码瘦身、标准落地提供精准的数据支撑，完成历史数据规范化治理。

五、工程说明

1.aimcode-common：公共工具

2.aimcode-model：实体对象、VO、DTO

3.aimcode-data-sync：数据同步子模块，定时增量同步物资编码数据，支持从MYSQL、ORACLE、SQLSERVER、DM同步到MYSQL。运行后，通过localhost:8082/syncLog查看同步进度

4.aimcode-data-vector：向量计算子模块，定时计算物资编码的向量值，主要是调用ollama管理的本地专业向量模型。运行后，通过localhost:8083/vectorLog查看向量计算进度

5.aimcode-llm-client：精确判断子模块，通过配置选择，可以调用主流云端或者本地ollama管理的LLM，实现物资编码的精确判断。

6.aimcode-data-search：检索子模块，计算输入编码信息的向量值，使用余弦相似度查找最相似的几个物资编码，再使用aimcode-llm-client通过LLM做精确判断。运行后，通过localhost:8084/测试向量检索功能

六、后续计划

1.开源项目源代码，并发布相关数据，便于完整的实验和测试。

2.开发物资分类的精确匹配提示词管理

3.开发物资的规格编写提示词管理

4.开发物资编码历史数据质量自检报告的功能