多模态知识图谱的构建及在热点新闻事件中的应用

  • 写在前面:

本文是写于2022年5月份的一篇心得,彼时俄乌冲突战火刚起,AI+知识双驱动的人工智能应用模式也正当时。不过紧接着,2022年8月,ChatGPT横空出世,凭借其逼真的自然语言交互与多场景内容生成能力迅速引爆互联网,表明在大规模数据集上训练的更大模型可以树立新的AI能力标杆。GPT-4的发布,具备了多模态理解与多类型内容生成能力,进一步推动了大模型技术的发展和在AI领域的绝对主导。一直到现在都是,大模型在多模态能力的全面突破、长上下文处理能力的大幅提升、以及 Agent 化应用的蓬勃发展。技术架构从单纯的参数扩大转向效率优化,MoE(混合专家)架构成为新的主流方向。这些都是在向着确定性知识推理、更准确的可解释性方向迈进。而且不可抗拒的,我们的实际工程中,知识图谱的技术方案逐步被大模型训练、RAG外挂的方式取代。

好长一段时间,在思考,大模型和知识图谱,是取代还是互补,不管是方案上技术上还是项目上,而现在大模型辅助生成知识图谱,反之知识图谱数据作为大模型微调语料,这些技术方案也都逐步被研究和实现,可以单开一个专题来聊聊了。大模型虽然具有不可解释性,但可以构建一个纷繁复杂的数据世界,而再往深入,高质量数据关系集的知识图谱可以更好的解释这个世界。

回归正题,翻出2022年的多模态知识图谱理解和各位分享,时过境迁,也许5年或者10年后再看,又会是另一种感觉。
https://zhuanlan.zhihu.com/p/512746926

mark : 相信知识的力量



最近一段时间重点在研究知识图谱,知识图谱应用于网络智能化运维是主脉络,同时也对知识图谱的预训练模型、多模态知识图谱有一些研究,最近俄乌冲突不断升级、各种消息也是瞬息万变,这次就蹭一个热点,再讨论一下多模态知识图谱在俄乌冲突中的应用。

多模态知识图谱(Multi-Modal Knowledge Graph,MMKG)被逐渐瞩目,下面我们只粗浅讨论两个话题:

1、构建:多模态知识图谱的技术原理和构建

2、应用:说说多模态知识图谱在俄乌冲突事件中的应用

一、多模态知识图谱的构建

1、知识图谱

知识图谱(Knowledge Graph,KG)是什么?

目前有多种解释,用一个比较简单直观的说法就是:是对人类知识的一种显性刻画表示,以图的方式进行存储并用于推理、计算。

知识图谱是一种特殊的图结构,它使用实体来表示自然界的物体或者抽象的概念,使用关系来建模实体之间的交互,其基本的存储形式是(头实体h,关系r,尾实体t)的三元组。

知识图谱是一个语义图,它既包含语义信息又包含图结构信息。知识表示学习旨在学习将知识图谱中的符号(包括实体和关系)映射到一个低维的向量空间。其优点在于学习得到的向量是连续的,且可以发掘隐藏的性质。此外,在向量空间中计算相似度是十分高效的。

2、从知识图谱到多模态知识图谱(MMKG)

知识图谱是一个以实体、概念为节点、以概念之间的各种语义关系为边的大规模语义网络。这种带有知识的结构也被广泛应用,但是,现有知识图谱都以纯文本的形式出现,却没有真实世界的连接。举个最简单的例子,现在很多的搜索引擎或者新闻都开始利用知识图谱进行快速检索以及新闻的生成和理解,我们在一段新闻里看到

如果将图片、视频中的实体采用类似于实体链接等技术与知识图谱中的实体进行链接,就可以充分利用知识图谱增强对多模态数据的分类、检索和识别等能力,最直接的知识图谱被用来帮助解决图片的零样本分类问题。这些都是研究多模态知识图谱的意义所在。

先说说何为多模态,传统的知识图谱基本指的都是语义文本,文本算是一种模态。不过人类的感知是多方位立体的,比如人有触觉、听觉、视觉、味觉和嗅觉,再比如多种多样的传感器如雷达、红外等。同时,模态也可以有非常广泛的定义,比如可以把两种不同的语言当作两种模态,甚至在两种不同情况下采集到的数据集,也可认为是两种模态。目前,多模态在机器学习中比较热门的研究方向是图像、视频、音频、语义文本之间的多模态学习,

多模态知识图谱与传统知识图谱的主要区别是,传统知识图谱主要集中研究文本和数据库的实体和关系,而多模态知识图谱则在传统知识图谱的基础上,构建了多种模态(图像、音频、视频)下的实体,以及多种模态实体间的语义关系。

3、多模态知识图谱的构建

现有的知识图谱大多是用纯符号表示的,以文本的形式表示,这削弱了机器对现实世界的描述和理解能力,例如,在关系提取任务中,额外的图像通常会大大提高提取符号和文本中那些在视觉上很明显但难以识别的属性和关系的性能,例如:我们在描述一个网络架构的时候,文字往往比较匮乏单调,而一个直观的网络架构图会让人一目了然,我们也会通过多模态的知识来培养机器学习到这种进行网络组网和架构设计的能力。

MMKG的构建主要有两种,可以在两个相反的方向上进行,我们以多模态的图像为例:

一种是从图像到符号(from images to symbols),即用KG表示符号来标注图像;另一种是从符号到图像( from symbols to images),即把KG中的符号对应到图像。

1)从图像到符号:

也叫做图像标注方式,这种方式更像我们传统的CV任务演变而来,目前已经有了很成熟的各种图像标注解决方案,这些解决方案可用于在KG中使用知识符号来标注图像(当然不局限于图像,可以是各种多模态实体)

大多数图像标记解决方案学习从图像内容到各种各样的标签集的映射,包括对象、场景、实体、属性、关系、事件和其他符号。学习过程由人工标注的数据集监督,这需要人群工作者绘制边界框并标注带有给定标签的图像或图像区域,

我们用图像来举例,当然不局限于图像,还以是视频、语音。。。。

2)从符号到图像:

也叫做符号定位方式,我们通常意义上采用的都是这种多模态图谱的构建方式,也就是在传统的知识图谱架构构建完成后,在此基础上进行图像、声音、视频信息的补全,寻找合适的多模态数据项(如图像)来表示传统KG中存在的符号知识的过程。

与图像标注方式相比,符号定位方式在MMKG施工中应用更为广泛。大多数现有的MMKG都是以这种方式构建的。

二、俄乌冲突事件的多模态知识图谱构建

MMKG的应用也可以大致分为两类,一类是In-MMKG应用,目的是解决MMKG本身的质量或集成问题;另一类是 Out-of-MMKG应用, Out-of-MMKG 可以被应用在多个领域,如QA问答系统、推荐系统、新药发现、股市预测等等,在这里不展开,就蹭个俄乌冲突的特点,说一说在热点新闻事件中的应用。

1、多模态知识构建

早在2020年,我们国内的研究机构就利用多模态知识图谱,做了一个专门针对俄乌冲突事件的MMKB,http://blender.cs.illinois.edu/resources/gaia.html

新闻网站的内容完全自动爬取,搜集爬取到的新闻素材分解为两个知识分支并分别构建文本知识图谱和图像视觉图谱,再经过知识抽取、消歧、对齐、链接等流程,形成最终的MMKB。两个知识分支分别是文本知识提取(TKE)分支和视觉知识提取(VKE)分支。

上图开源的多媒体知识提取系统GAIA。通过各种途径来源获取非结构化、异构的多媒体数据流,并对这些输入进行处理,创建了一个结构化的知识库。它能够对复杂图形进行无缝搜索,且能检索包括文本、图像和视频在内的多媒体数据

2、热点时间的脉络梳理和演进推断

以上只是简单的多模态知识图谱的简单应用,而MMKG还没发挥出核心优势,MMKG提供了足够的背景知识来丰富实体和概念的表示,特别是对于长尾问题,引入辅助的常识知识可以增强图像和文本的表示能力。

MMKG能够理解图像中不可见的物体。这主要是利用符号知识提供的在视觉上看不见物体的符号信息,或在看不见物体和看不见物体之间建立语义关系。

并且,MMKG支持多模态推理。在外部知识资源的帮助下,VQA任务的推理能力可以得到提升。

MMKG通常提供多模态数据作为附加特性来弥补一些NLP任务中的信息差距。以实体识别为例,目前有些消息扑朔迷离,一幅图片很可能造假,一段文字消息也很可能造假,需要更多的信息组合在一起,帮助我们理清脉络。

图片来源于网络

俄乌冲突之前网上小道消息乱飞,各种自媒体各种分析推断,其实可以通过多模态知识图谱的构建和推理来更全面和客观的判断。

感兴趣的同学可以尝试按照上面的思路构建俄乌冲突的知识图谱,通过多方消息可以进行事件的全景分析、具体冲突的脉络梳理和演进推断。后续我们可以通过主题事件及事件脉络分析,帮助分析战略环境,理清事件的历史情况;了解战略态势,理清事件的发展脉络;监控战略动向,发现威胁与机 遇。通过知识图谱的关联进行脉络梳理:

  • 确认分析目标的相关主题事件
  • 通过其子事件,查看事件发生、发展、消亡等阶段,展示事件发展的紧张趋势;
  • 通过时序关系,查看事件演变脉络

三、从感知到认知,多模态知识图谱扑面而来

其实,知识图谱本来就应该是多模态的。我们之前简单的把其定位为NLP和符号文字表示,本身就是一个认知的局限。现在很多搜索引擎提供的知识图谱搜索结果中,都已经包含多模态的数据。知识图谱是链接数据的概念。有关一个实体的数据可能是结构化的属性描述数据,也可能是文本描述型数据,也可能存在于一张图片或一段视频中。如果能够将有关这个实体的各种模态数据都关联起来,将会大大提升信息搜索的用户体验。

现有很多商用知识图谱都已经通过知识图谱将各种模态的数据进行关联,并提供了多模态语义搜索能力。多模态知识图谱可以发挥不同模态数据中所包含知识的互补性,相互增强、相互补充。一方面,可以利用多模态数据进一步补全知识图谱;另一方面,知识图谱也可以提升多模态任务的效率。多模态知识图谱有很多值得深入研究的方向:

  • 多模态语义搜索、知识问答
  • 多模态关系预测与推理
  • 多模态实体对齐、消歧、实体链接
  • 多模态推荐计算
  • 基于多模态知识图谱的通用人工智能(认知智能)
相关推荐
AI弟1 小时前
第13章 迁移学习:让AI学会“举一反三“的艺术
人工智能·机器学习·迁移学习
ccLianLian1 小时前
MaskCLIP+
人工智能·计算机视觉
艾莉丝努力练剑1 小时前
【C++:C++11收尾】解构C++可调用对象:从入门到精通,掌握function包装器与bind适配器包装器详解
java·开发语言·c++·人工智能·c++11·右值引用
Allen_LVyingbo1 小时前
解锁医疗AI新引擎:从数据库与编程语言透视合成数据生成(代码部分)
数据库·人工智能·深度学习·健康医疗
李景琰1 小时前
Java 25+AI+物联网+区块链融合平台:架构设计与企业级实现
java·人工智能·物联网·区块链
倔强的石头1061 小时前
循环神经网络(RNN):从序列数据难题到实战落地的完整指南
人工智能·rnn·深度学习
Leinwin1 小时前
Ignite 2025:Microsoft 365 Copilot 全面升级,引领企业进入自主智能(Agentic AI)新时代
人工智能·microsoft·copilot
大千AI助手1 小时前
Sigmoid函数:从生物生长曲线到神经网络激活的桥梁
人工智能·神经网络·机器学习·激活函数·sigmoid·大千ai助手·lr