数据驱动的自动化本体构建过程包含3个阶 段

数据驱动的自动化本体构建过程包含3个阶 段:实体并列关系相似度计算、实体上下位关系抽取 以及本体的生成』".1)实体并列关系相似度是用于 考察任意给定的2个实体在多大程度上属于同一概 念分类的指标测度,相似度越高,表明这2个实体越 有可能属于同一语义类别.所谓并列关系,是相对于 纵向的概念隶属关系而言的.例如"中国"和"美国" 作为国家名称的实体,具有较高的并列关系相似度; 而"美国"和"手机"这2个实体,属于同一语义类别 的可能性较低,因此具有较低的并列关系相似度.2) 实体上下位关系抽取是用于确定概念之间的隶属 (IsA)关系,这种关系也称为上下位关系,例如,词 组(导弹,武器)构成上下位关系,其中的"导弹"为下 位词,"武器"为上位词.3)本体生成阶段的主要任务 是对各层次得到的概念进行聚类,并对其进行语义 类的标定(为该类中的实体指定1个或多个公共上 位词). 当前主流的实体并列关系相似度计算方法有2 种:模式匹配法和分布相似度法.其中,模式匹配法 采用预先定义实体对模式的方式,通过模式匹配取 得给定关键字组合在同一语料单位中共同出现的频 率,据此计算实体对之间的相似度.分布相似度 (distributional similarity)方法的前提假设是:在相 似的上下文环境中频繁出现的实体之间具有语义上 的相似性L6⋯.在具体计算时,首先将每个实体表示 成1个N维向量,其中,向量的每个维度表示1个 预先定义的上下文环境,向量元素值表示该实体出 现在各上下文环境中的概率,然后就可以通过求解 向量问的相似度,得到实体间的并列关系相似度. 实体上下位关系抽取是该领域的研究重点,主 要的研究方法是基于语法模式(如Hearst模式)抽 取IsA实体对_".当前主流的信息抽取系统,如 KnowItAll,TextRunner,NELI,等,都可以在语法 层面抽取实体上下位关系,而Probase则是采用基 于语义的迭代抽取技术,以逐步求精的方式抽取实 体上下位关系.基于语义的迭代抽取技术,一般是利 用概率模型判定IsA关系和区分上下位词,通常会借 万方数据 助百科类网站提供的概念分类知识来帮助训练模型以提高算法精度口".例如Probase在处理"domestic animals other than dogs such as cats"这样的句子 时,可以通过抽取1sA实体对中的上下位词得到 2个备选事实:(cat,IsA,dog)和(cat,IsA,domestic animal).如果Probase中已经有关于这些实体的概 念,就可以得到正确的结果一8I. 除了数据驱动的方法,还可以用跨语言知识链 接的方法来构建本体库.例如Wang等人¨2一利用跨 语言知识链接方法得到的知识对,在分别生成中英 文本体模型的过程中,使二者相互确认,同时提高了 中文关系和英文关系预测的准确度

相关推荐
大龄程序员狗哥5 小时前
第47篇:使用Speech-to-Text API快速构建语音应用(操作教程)
人工智能
KKKlucifer5 小时前
数据安全合规自动化:策略落地、审计追溯与风险闭环技术解析
人工智能·安全
RWKV元始智能5 小时前
RWKV超并发项目教程,RWKV-LM训练提速40%
人工智能·rnn·深度学习·自然语言处理·开源
dyj0955 小时前
Dify - (一)、本地部署Dify+聊天助手/Agent
人工智能·docker·容器
墨染天姬5 小时前
【AI】Hermes的GEPA算法
人工智能·算法
小超同学你好5 小时前
OpenClaw 深度解析系列 · 第8篇:Learning & Adaptation(学习与自适应)
人工智能·语言模型·chatgpt
紫微AI6 小时前
前端文本测量成了卡死一切创新的最后瓶颈,pretext实现突破了
前端·人工智能·typescript
码途漫谈6 小时前
Easy-Vibe开发篇阅读笔记(四)——前端开发之结合 Agent Skills 美化界面
人工智能·笔记·ai·开源·ai编程
易连EDI—EasyLink6 小时前
易连EDI–EasyLink实现OCR智能数据采集
网络·人工智能·安全·汽车·ocr·edi
冬奇Lab6 小时前
RAG 系列(二):用 LangChain 搭建你的第一个 RAG Pipeline
人工智能·langchain·llm