数据驱动的自动化本体构建过程包含3个阶 段

数据驱动的自动化本体构建过程包含3个阶 段:实体并列关系相似度计算、实体上下位关系抽取 以及本体的生成』".1)实体并列关系相似度是用于 考察任意给定的2个实体在多大程度上属于同一概 念分类的指标测度,相似度越高,表明这2个实体越 有可能属于同一语义类别.所谓并列关系,是相对于 纵向的概念隶属关系而言的.例如"中国"和"美国" 作为国家名称的实体,具有较高的并列关系相似度; 而"美国"和"手机"这2个实体,属于同一语义类别 的可能性较低,因此具有较低的并列关系相似度.2) 实体上下位关系抽取是用于确定概念之间的隶属 (IsA)关系,这种关系也称为上下位关系,例如,词 组(导弹,武器)构成上下位关系,其中的"导弹"为下 位词,"武器"为上位词.3)本体生成阶段的主要任务 是对各层次得到的概念进行聚类,并对其进行语义 类的标定(为该类中的实体指定1个或多个公共上 位词). 当前主流的实体并列关系相似度计算方法有2 种:模式匹配法和分布相似度法.其中,模式匹配法 采用预先定义实体对模式的方式,通过模式匹配取 得给定关键字组合在同一语料单位中共同出现的频 率,据此计算实体对之间的相似度.分布相似度 (distributional similarity)方法的前提假设是:在相 似的上下文环境中频繁出现的实体之间具有语义上 的相似性L6⋯.在具体计算时,首先将每个实体表示 成1个N维向量,其中,向量的每个维度表示1个 预先定义的上下文环境,向量元素值表示该实体出 现在各上下文环境中的概率,然后就可以通过求解 向量问的相似度,得到实体间的并列关系相似度. 实体上下位关系抽取是该领域的研究重点,主 要的研究方法是基于语法模式(如Hearst模式)抽 取IsA实体对_".当前主流的信息抽取系统,如 KnowItAll,TextRunner,NELI,等,都可以在语法 层面抽取实体上下位关系,而Probase则是采用基 于语义的迭代抽取技术,以逐步求精的方式抽取实 体上下位关系.基于语义的迭代抽取技术,一般是利 用概率模型判定IsA关系和区分上下位词,通常会借 万方数据 助百科类网站提供的概念分类知识来帮助训练模型以提高算法精度口".例如Probase在处理"domestic animals other than dogs such as cats"这样的句子 时,可以通过抽取1sA实体对中的上下位词得到 2个备选事实:(cat,IsA,dog)和(cat,IsA,domestic animal).如果Probase中已经有关于这些实体的概 念,就可以得到正确的结果一8I. 除了数据驱动的方法,还可以用跨语言知识链 接的方法来构建本体库.例如Wang等人¨2一利用跨 语言知识链接方法得到的知识对,在分别生成中英 文本体模型的过程中,使二者相互确认,同时提高了 中文关系和英文关系预测的准确度

相关推荐
twc82921 分钟前
大模型生成 QA Pairs 提升 RAG 应用测试效率的实践
服务器·数据库·人工智能·windows·rag·大模型测试
宇擎智脑科技23 分钟前
A2A Python SDK 源码架构解读:一个请求是如何被处理的
人工智能·python·架构·a2a
IT_陈寒24 分钟前
Redis缓存击穿:3个鲜为人知的防御策略,90%开发者都忽略了!
前端·人工智能·后端
vx_biyesheji000126 分钟前
Python 全国城市租房洞察系统 Django框架 Requests爬虫 可视化 房子 房源 大数据 大模型 计算机毕业设计源码(建议收藏)✅
爬虫·python·机器学习·django·flask·课程设计·旅游
电商API&Tina41 分钟前
【电商API接口】开发者一站式电商API接入说明
大数据·数据库·人工智能·云计算·json
湘美书院--湘美谈教育1 小时前
湘美谈教育湘美书院网文研究:人工智能与微型小说选集
人工智能·深度学习·神经网络·机器学习·ai写作
uzong1 小时前
Harness Engineering 是什么?一场新的 AI 范式已经开始
人工智能·后端·架构
墨有6661 小时前
FieldFormer:基于物理场论的极简AI大模型底层架构,附带源码
人工智能·架构·电磁场算法映射
Mountain and sea1 小时前
从零搭建工业机器人激光切割+焊接产线:KUKA七轴协同+节卡AGV+视觉检测实战复盘
人工智能·机器人·视觉检测
K姐研究社2 小时前
阿里JVS Claw实测 – 手机一键部署 OpenClaw,开箱即用
人工智能·智能手机·aigc·飞书