数据驱动的自动化本体构建过程包含3个阶 段:实体并列关系相似度计算、实体上下位关系抽取 以及本体的生成』".1)实体并列关系相似度是用于 考察任意给定的2个实体在多大程度上属于同一概 念分类的指标测度,相似度越高,表明这2个实体越 有可能属于同一语义类别.所谓并列关系,是相对于 纵向的概念隶属关系而言的.例如"中国"和"美国" 作为国家名称的实体,具有较高的并列关系相似度; 而"美国"和"手机"这2个实体,属于同一语义类别 的可能性较低,因此具有较低的并列关系相似度.2) 实体上下位关系抽取是用于确定概念之间的隶属 (IsA)关系,这种关系也称为上下位关系,例如,词 组(导弹,武器)构成上下位关系,其中的"导弹"为下 位词,"武器"为上位词.3)本体生成阶段的主要任务 是对各层次得到的概念进行聚类,并对其进行语义 类的标定(为该类中的实体指定1个或多个公共上 位词). 当前主流的实体并列关系相似度计算方法有2 种:模式匹配法和分布相似度法.其中,模式匹配法 采用预先定义实体对模式的方式,通过模式匹配取 得给定关键字组合在同一语料单位中共同出现的频 率,据此计算实体对之间的相似度.分布相似度 (distributional similarity)方法的前提假设是:在相 似的上下文环境中频繁出现的实体之间具有语义上 的相似性L6⋯.在具体计算时,首先将每个实体表示 成1个N维向量,其中,向量的每个维度表示1个 预先定义的上下文环境,向量元素值表示该实体出 现在各上下文环境中的概率,然后就可以通过求解 向量问的相似度,得到实体间的并列关系相似度. 实体上下位关系抽取是该领域的研究重点,主 要的研究方法是基于语法模式(如Hearst模式)抽 取IsA实体对_".当前主流的信息抽取系统,如 KnowItAll,TextRunner,NELI,等,都可以在语法 层面抽取实体上下位关系,而Probase则是采用基 于语义的迭代抽取技术,以逐步求精的方式抽取实 体上下位关系.基于语义的迭代抽取技术,一般是利 用概率模型判定IsA关系和区分上下位词,通常会借 万方数据 助百科类网站提供的概念分类知识来帮助训练模型以提高算法精度口".例如Probase在处理"domestic animals other than dogs such as cats"这样的句子 时,可以通过抽取1sA实体对中的上下位词得到 2个备选事实:(cat,IsA,dog)和(cat,IsA,domestic animal).如果Probase中已经有关于这些实体的概 念,就可以得到正确的结果一8I. 除了数据驱动的方法,还可以用跨语言知识链 接的方法来构建本体库.例如Wang等人¨2一利用跨 语言知识链接方法得到的知识对,在分别生成中英 文本体模型的过程中,使二者相互确认,同时提高了 中文关系和英文关系预测的准确度
相关推荐
Mr数据杨2 小时前
【Dv3Admin】插件 dv3admin_chatgpt 集成大语言模型智能模块zm-v-159304339862 小时前
AI 赋能 Copula 建模:大语言模型驱动的相关性分析革新phoenix@Capricornus3 小时前
反向传播算法——矩阵形式递推公式——ReLU传递函数zhz52143 小时前
AI数字人融合VR全景:从技术突破到可信场景落地数据与人工智能律师3 小时前
虚拟主播肖像权保护,数字时代的法律博弈田梓燊4 小时前
数学复习笔记 19武科大许志伟4 小时前
武汉科技大学人工智能与演化计算实验室许志伟课题组参加2025中国膜计算论坛哲讯智能科技4 小时前
【无标题】威灏光电&哲讯科技MES项目启动会圆满举行__Benco4 小时前
OpenHarmony平台驱动开发(十七),UART小oo呆4 小时前
【自然语言处理与大模型】Windows安装RAGFlow并接入本地Ollama模型