对商品分类系统的若干问题的思考

科学研究的目的就是研究事物的特征,并根据共同的特征加以分类

商品分类是商业和制造业中最普遍的活动,几乎所有的企业,电商平台都要对商品,原材料(BOM)进行分类和编号。

商品分类貌似没有多少技术含量,它是数字化转型的重要基石。一个不合理的分类方法会导致混乱和难以使用。

现有分类系统遇到的问题

各种标准化组织和机构提出了分类系统,它们主要包括:

  • UNSPSC

联合国标准产品和服务代码是用于对产品和服务进行分类的分层约定。它是一个八位数的数字代码,用于识别产品或服务。它不是条形码。它不用于供应链。UNSPSC由联合国开发计划署(UNDP)和Dun & Bradstreet公司(D & B)于1998年联合制定,自2003年以来一直由GS1 US管理。GS1 US 将在 2024 年底前将 UNSPSC 的管理权移交给 UNDP。

  • GS1

GS1 是美国主导的全球商品分类标准(Global Product Classification, GPC)不断扩展更新,每年发布两个新版本。GPC分类代码按照大类(Segment)、中类(Family)、小类(Class)、细类(Brick)来划分,并细分为具体的商品核心属性类型和属性值。商品数据交换中,通常采用第4级代码,即细类代码。

  • ETIM
  • ECL@SS

德国主导的产品和服务分类系统。

  • IEC 61360

几种分类系统的分类

|---------|----------|-------------------|------------|
| GS1 | ETIM | ECL@SS | UNSPSC |
| SEGMENT | Group | Segments | Segment |
| FAMILY | Class | Main Groups | Family |
| CLASS | | Groups | Class |
| BRICK | | Commodity classes | Commodity |

UNSPSC

UNSPSC 是联合国商品和服务的分类。 大约61个·Segment,149834 种商品,其中食品,药物居多。分段:

UNSPSC分段

GS1

GS1 是美国主导的全球商品分类 大约43 个Segment,5282 种商品。

ECL@SS

ECLASS 成立与2000年,已经有20多年的历史,大约44个·Segment ,48,000种商品。最大的特点是具有17000个商品属性。主要面向工业领域,与工业4.0 的标准结合紧密。

ETIM

ETIM 大约6239 个商品分类

存在的问题

它们有的是公开免费的,有的是收费服务(ECL@SS)。分类方式也各不相同。使用这些分类标准面临各种挑战。

  • 过于宽泛
  • 互不兼容,无法相互映射
  • 商品描述过于简单

我们以gs1为例,4级分类仍然不够细。进一步细分只能依靠属性(attributes)来分类了。例如服装的分类如下

Segment 67000000服装

Segment67000000 服装
    Family67040000内衣
    Family67010000服装
        Class67010800上半身服装或上衣
            Brick10001361上半身服装、上衣组合装
            Brick10001350夹克、外套、羊毛衫、马甲
            Brick10001351毛衣、套头毛衣
            Brick10001352长袖衬衫、女式衬衫、马球衫、T恤

显然这样的分类不够细,不符合商业中通常的分类习惯,需要进一步细分。比如男女,风格,材料等。比如:医疗设备。 在GS1 中是一个Brick,而在ECL@SS 中是一个Segment,这就意味着在ECL@ 中,医疗设备分的更细 。解决这个问题的方法:

增加大类(Segment)

增加分类系统的层级(Levels)

GS1 与UNSPSC相比,Segment比较少,例如缺少如下常用的段:

  • 31000000 制造组件和用品
  • 32000000 电子元件和用品
  • 42000000 医疗设备及配件及用品
  • 51000000 药品

属性,特征和特性区别

在讨论信息模型时,经常提到属性(attribute),特征(Property)和特性(Feature),有的地方使用attribute ,有的地方使用特征(Property)或者特性(Feature) ,那么它们到底有什么区别呢?

我们知道,模型是事物的简单描述。模型描述了事物的特征(Property)以及与其它事物的关系(Relationship)。

从分类的视角看,事物是通过某些主要特征来分类的,主要特征相同的商品被分为一类。这主要特征称为属性(attribute),我们能够体会属性与特征的不同,用于分类的特征是属性。

在某些分类系统中,属性是类别中默认的。而商品的描述中包含了某些特征(Property),而在一些分类系统中不仅规定了类别,又定义了属性

例如服装的性别,gs1 提供了属性和属性值

而Feature (特性)是增加功能或吸引力的独特方面或品质。这些方面通常作为卖点进行推广或突出显示。它们是旨在带来特定优势或功能的元素,使产品从竞争对手中脱颖而出。特性可以理解为独特的特征。

例如:毛衣的属性及性别的属性值

Brick10001351毛衣、套头毛衣
    Attribute20000045消费者年龄段
    Attribute20001131性别
        Attribute Value30004039男性(雄性)
        Attribute Value30003891女性(雌性)
        Attribute Value30002518尚未确定的
        Attribute Value30002515未分类的
        Attribute Value30004340中性的
    Attribute20003164是否带帽
    Attribute20001141是否保暖
    Attribute20001941服装袖长
    Attribute20000794材料类型
    Attribute20001942毛衣、套头毛衣类型

笔者主张在产品分类系统中只有类别,不包含属性。而在商品描述中包含特征(Property)。这样更加清晰一点。而Feature 更多地包含的宣传文档中。

分类系统的颗粒度

到底分类到多细才合适呢?这也许没有明确的答案,侧重点不同,分类的颗粒度也不同,在笔者看来,分类系统的颗粒度与产品属性有关。最底层的项目,应该具有相同的属性。

某种意义上讲,属性也是一种分类。可以将分类变成属性例如:性别。你可以将服装分类为男性服装,女性服装,儿童服装,成人服装和老年服装。当然你也可以在服装中,定义:适应性别,适应年龄段属性。

我们的研究更倾向在unspsc 的基础上进一步细分,并且与gs1,ecl@ss 结合起来,缺乏的Segment或者Family和Class ,可以添加。

  • Segnment
  • Family
  • Class
  • Commodity

这样的安排的好处

  • 商品分类的颗粒度更细,符合商业分类的习惯
  • 有利于引用ECL@SS 的属性
  • 有利于和GS1 ,ECL@SS 的映射和转换

商品分类系统的颗粒度划分的原则是**尽可能使同类商品具有一致的特征。**避免商品模型中特征的冗余,比如女性服装中的某些特征不会在男性服装的模型中出现。

商品的特征

商品的模型是由商品的特征(Property)组成的。分类系统与商品特征结合在一起,形成了如下分层结构。

  • Segnment
  • Family
  • Commodity
    • Property
      • Property
        • Property

商品特征描述提供了商品信息模型。在实际应用中也可以通过商品的主要特征(属性)动态分类。

分类系统与产品信息管理系统的关系

分类系统的主要用途是商品的信息管理(PIM),确切地讲,分类系统是产品的模型,而商品是产品模型的实例及其组合。需要将分类系统和PIM 系统区分开来,分类数据库中每一项对应一个商品类型,而产品数据库中的每一项是一个产品的SKU(库存量单位)。SKU 包含了无包装单元,单品,包装和托盘。无包装单元对应GS1 中的一个类。而单品,包装箱和托盘包含了SKU 的其它一些信息。比如SKU 的名称,图片,重量,价格等等。

商品的基本属性与SKU 的属性是不同的,如果将所有的SKU 信息包含到分类系统中,会引起混乱。将它们分开视乎更合理。

分类系统的商品特征是模型,无包装单元是模型的实例。

BMEcat

BMEcat 是一个目录交换标准,创建于 1999 年,由德国 BME - Bundesverband Materialwirtschaft, Einkauf und Logistik e. V.. 协会开发。该标准基于 XML,完全开放且不收取任何费用,其最新版本是 BMEcat 2005。

供应链中的所有合作伙伴(制造商、批发商、供应商)都在交换越来越多的数据,而不同的数据格式使流程复杂化。通过使用 BMEcat 标准化信息系统之间的通信,大大降低了所有参与公司的成本。

PIM的数据模型

除了引用分类系统中的商品模型之外,PIM 还需要额外的数据模型,它们包括:

  • 产品模型
  • 机构模型
  • 测量单位

产品模型

javascript 复制代码
{
    "ID":"产品ID"
   "Name":"商品名称",
   "Type":["无包装单元","单品","包装箱","托盘"],
    "Items":[{
        "Code":"单元的编码",
        "Type":"单元类型",
        "Number":1
    }] 
  "Supply":{
    "Name":"供应商名称",
    "Id":"供应商ID",
   }
   "Brand":"品牌",
   "Measurement":{
      "Length":"长度",
      "Width":"宽度",
      "Height":"高度"
   },
   "Images":[{
     }]
   "Documents":[{
  }] 
"Price":"价格"
 }

AI 在分类系统中的应用

以chatGPT 为代表的AI技术的兴起,为分类系统带来了变化。

  • AI 智能检索
  • AI 智能构建商品模型
  • AI 智能生成商品的结构化数据

结论

分类系统是数字化转型的重要基石。同时它也是十分费时的辛苦工作。也许chatGPT AI 工具能够提升构建分类系统的效率。本文提出了目前几种分类系统存在的问题,并且提出了自己的看法。下一步我们将问题进一步的细化。从中发现更多的问题和解决方法。

笔者认为,作为世界第二大经济体和世界制造中心,我们既要构建符合国际标准,又要构建适合国情的商品分类体系,使用ECL@SS 这种完全由国外主导,并且收费的分类系统不是一个好办法。

商品分类标准是数字化供应链的基石,我国企业目前正在加速数字化供应链,电商出海。构建开放的商品分类系统非常重要。探索使用chatGPT 为代表的大语言模型,提高产品分类系统的的效率是一个有趣的研究课题。

相关推荐
DolphinScheduler社区30 分钟前
Apache DolphinScheduler + OceanBase,搭建分布式大数据调度平台的实践
大数据
深度学习实战训练营34 分钟前
基于CNN-RNN的影像报告生成
人工智能·深度学习
时差9531 小时前
MapReduce 的 Shuffle 过程
大数据·mapreduce
kakwooi2 小时前
Hadoop---MapReduce(3)
大数据·hadoop·mapreduce
数新网络3 小时前
《深入浅出Apache Spark》系列②:Spark SQL原理精髓全解析
大数据·sql·spark
昨日之日20063 小时前
Moonshine - 新型开源ASR(语音识别)模型,体积小,速度快,比OpenAI Whisper快五倍 本地一键整合包下载
人工智能·whisper·语音识别
浮生如梦_3 小时前
Halcon基于laws纹理特征的SVM分类
图像处理·人工智能·算法·支持向量机·计算机视觉·分类·视觉检测
深度学习lover3 小时前
<项目代码>YOLOv8 苹果腐烂识别<目标检测>
人工智能·python·yolo·目标检测·计算机视觉·苹果腐烂识别
热爱跑步的恒川4 小时前
【论文复现】基于图卷积网络的轻量化推荐模型
网络·人工智能·开源·aigc·ai编程
阡之尘埃6 小时前
Python数据分析案例61——信贷风控评分卡模型(A卡)(scorecardpy 全面解析)
人工智能·python·机器学习·数据分析·智能风控·信贷风控