数据驱动的自动化本体构建过程包含3个阶 段

数据驱动的自动化本体构建过程包含3个阶 段:实体并列关系相似度计算、实体上下位关系抽取 以及本体的生成』".1)实体并列关系相似度是用于 考察任意给定的2个实体在多大程度上属于同一概 念分类的指标测度,相似度越高,表明这2个实体越 有可能属于同一语义类别.所谓并列关系,是相对于 纵向的概念隶属关系而言的.例如"中国"和"美国" 作为国家名称的实体,具有较高的并列关系相似度; 而"美国"和"手机"这2个实体,属于同一语义类别 的可能性较低,因此具有较低的并列关系相似度.2) 实体上下位关系抽取是用于确定概念之间的隶属 (IsA)关系,这种关系也称为上下位关系,例如,词 组(导弹,武器)构成上下位关系,其中的"导弹"为下 位词,"武器"为上位词.3)本体生成阶段的主要任务 是对各层次得到的概念进行聚类,并对其进行语义 类的标定(为该类中的实体指定1个或多个公共上 位词). 当前主流的实体并列关系相似度计算方法有2 种:模式匹配法和分布相似度法.其中,模式匹配法 采用预先定义实体对模式的方式,通过模式匹配取 得给定关键字组合在同一语料单位中共同出现的频 率,据此计算实体对之间的相似度.分布相似度 (distributional similarity)方法的前提假设是:在相 似的上下文环境中频繁出现的实体之间具有语义上 的相似性L6⋯.在具体计算时,首先将每个实体表示 成1个N维向量,其中,向量的每个维度表示1个 预先定义的上下文环境,向量元素值表示该实体出 现在各上下文环境中的概率,然后就可以通过求解 向量问的相似度,得到实体间的并列关系相似度. 实体上下位关系抽取是该领域的研究重点,主 要的研究方法是基于语法模式(如Hearst模式)抽 取IsA实体对_".当前主流的信息抽取系统,如 KnowItAll,TextRunner,NELI,等,都可以在语法 层面抽取实体上下位关系,而Probase则是采用基 于语义的迭代抽取技术,以逐步求精的方式抽取实 体上下位关系.基于语义的迭代抽取技术,一般是利 用概率模型判定IsA关系和区分上下位词,通常会借 万方数据 助百科类网站提供的概念分类知识来帮助训练模型以提高算法精度口".例如Probase在处理"domestic animals other than dogs such as cats"这样的句子 时,可以通过抽取1sA实体对中的上下位词得到 2个备选事实:(cat,IsA,dog)和(cat,IsA,domestic animal).如果Probase中已经有关于这些实体的概 念,就可以得到正确的结果一8I. 除了数据驱动的方法,还可以用跨语言知识链 接的方法来构建本体库.例如Wang等人¨2一利用跨 语言知识链接方法得到的知识对,在分别生成中英 文本体模型的过程中,使二者相互确认,同时提高了 中文关系和英文关系预测的准确度

相关推荐
涛思数据(TDengine)17 分钟前
时序数据库厂商 TDengine 发布 AI 原生的工业数据管理平台 IDMP,“无问智推”改变数据消费范式
大数据·运维·数据库·人工智能·tdengine
那年一路北22 分钟前
Deforum Stable Diffusion,轻松实现AI视频生成自由!
人工智能·stable diffusion·音视频
正经教主26 分钟前
【n8n】如何跟着AI学习n8n【02.5】:第一部分总练习
人工智能·学习·教程·n8n
CV工程师丁Sir1 小时前
Vibe Coding vs 规范驱动开发:AI 时代编程范式的冲突与融合
人工智能·驱动开发
移远通信1 小时前
不止 “听懂”,更能 “感知”!移远通信全新AI 音频模组 重新定义智能家居“听觉”逻辑
人工智能·音视频·智能家居
掘金酱1 小时前
🎆仲夏掘金赛:码上争锋,金石成川 | 8月金石计划
前端·人工智能·后端
宇钶宇夕1 小时前
图像处理中级篇 [1]—— 彩色照相机的效果与预处理
人工智能·数码相机·计算机视觉
一起搞IT吧2 小时前
Camera相机人脸识别系列专题分析之十九:MTK ISP6S平台FDNode传递三方FFD到APP流程解析
android·图像处理·人工智能·数码相机·计算机视觉
sonrisa_2 小时前
大语言模型API付费?
人工智能·语言模型·自然语言处理
8Qi82 小时前
深度学习(鱼书)day06--神经网络的学习(后两节)
人工智能·python·深度学习·神经网络