数据驱动的自动化本体构建过程包含3个阶段

数据驱动的自动化本体构建过程包含3个阶段：实体并列关系相似度计算、实体上下位关系抽取以及本体的生成』"．1)实体并列关系相似度是用于考察任意给定的2个实体在多大程度上属于同一概念分类的指标测度，相似度越高，表明这2个实体越有可能属于同一语义类别．所谓并列关系，是相对于纵向的概念隶属关系而言的．例如"中国"和"美国" 作为国家名称的实体，具有较高的并列关系相似度；而"美国"和"手机"这2个实体，属于同一语义类别的可能性较低，因此具有较低的并列关系相似度．2) 实体上下位关系抽取是用于确定概念之间的隶属 (IsA)关系，这种关系也称为上下位关系，例如，词组(导弹，武器)构成上下位关系，其中的"导弹"为下位词，"武器"为上位词．3)本体生成阶段的主要任务是对各层次得到的概念进行聚类，并对其进行语义类的标定(为该类中的实体指定1个或多个公共上位词)．当前主流的实体并列关系相似度计算方法有2 种：模式匹配法和分布相似度法．其中，模式匹配法采用预先定义实体对模式的方式，通过模式匹配取得给定关键字组合在同一语料单位中共同出现的频率，据此计算实体对之间的相似度．分布相似度 (distributional similarity)方法的前提假设是：在相似的上下文环境中频繁出现的实体之间具有语义上的相似性L6⋯．在具体计算时，首先将每个实体表示成1个N维向量，其中，向量的每个维度表示1个预先定义的上下文环境，向量元素值表示该实体出现在各上下文环境中的概率，然后就可以通过求解向量问的相似度，得到实体间的并列关系相似度．实体上下位关系抽取是该领域的研究重点，主要的研究方法是基于语法模式(如Hearst模式)抽取IsA实体对_"．当前主流的信息抽取系统，如 KnowItAll，TextRunner，NELI，等，都可以在语法层面抽取实体上下位关系，而Probase则是采用基于语义的迭代抽取技术，以逐步求精的方式抽取实体上下位关系．基于语义的迭代抽取技术，一般是利用概率模型判定IsA关系和区分上下位词，通常会借万方数据助百科类网站提供的概念分类知识来帮助训练模型以提高算法精度口"．例如Probase在处理"domestic animals other than dogs such as cats"这样的句子时，可以通过抽取1sA实体对中的上下位词得到 2个备选事实：(cat，IsA，dog)和(cat，IsA，domestic animal)．如果Probase中已经有关于这些实体的概念，就可以得到正确的结果一8I．除了数据驱动的方法，还可以用跨语言知识链接的方法来构建本体库．例如Wang等人¨2一利用跨语言知识链接方法得到的知识对，在分别生成中英文本体模型的过程中，使二者相互确认，同时提高了中文关系和英文关系预测的准确度

数据驱动的自动化本体构建过程包含3个阶 段

数据驱动的自动化本体构建过程包含3个阶段