【事件检测】用于事件预测的文本增强多粒度时态图学习

简单概括
[Text-enhanced Multi-Granularity Temporal Graph Learning for Event Prediction（MTG）论文总结](#Text-enhanced Multi-Granularity Temporal Graph Learning for Event Prediction（MTG）论文总结)
- 一、研究背景与问题
- 二、模型设计：MTG框架
- - [1. 核心模块详解](#1. 核心模块详解)
  - [2. 预测流程![在这里插入图片描述](https://i-blog.csdnimg.cn/direct/c12b94e8609d4c5eadb81c091d5a7cb3.png)](#2. 预测流程)
- 三、实验设置
- - [1. 数据集](#1. 数据集)
  - [2. 基线模型](#2. 基线模型)
  - [3. 评估方法](#3. 评估方法)
- 四、实验结果
- - [1. 预测性能（表III）](#1. 预测性能（表III）)
  - [2. 消融实验（图4）](#2. 消融实验（图4）)
  - [3. 超参数敏感性](#3. 超参数敏感性)
  - [4. 模型复杂度（表IV）](#4. 模型复杂度（表IV）)
- 五、关键结论与意义
- 六、补充信息

简单概括

复制代码

论文：Text-enhanced Multi-Granularity Temporal Graph Learning for Event Prediction
作者：Xiaoxue Han，Yue Ning
单位：Stevens Institute of Technology
代码：https://github.com/yuening-lab/MTG.

请各位同学给我点赞，激励我创作更好、更多、更优质的内容！^_^

关注微信公众号 ，获取更多资讯

Text-enhanced Multi-Granularity Temporal Graph Learning for Event Prediction（MTG）论文总结

一、研究背景与问题

核心挑战 ：事件预测需从历史数据学习规律，但现有模型存在两大局限：
- 大多基于马尔可夫假设，仅考虑短期历史依赖（如最近几步），忽略事件的中长期依赖（如数月、数年的经济趋势、社会稳定性统计）。
- 对文本信息（如新闻描述）的利用不足，多数模型仅将文本作为独立模块处理，未能与事件知识图谱（KG）深度融合。
事件表示 ：事件以四元组(源实体s, 事件类型r, 目标实体o, 时间t)形式构建时序知识图谱，新闻文本则作为事件的语义补充（如事件细节描述）。
多粒度需求 ：预测目标事件（如抗议）需三类历史信息：
- 短期触发（如前几天的相关冲突事件）；
- 中期趋势（如近两个月的抗议频率，受经济、失业率影响）；
- 长期统计（如过去五年抗议发生的概率，反映社会稳定性）。

二、模型设计：MTG框架

MTG是端到端的文本增强时序图学习模型，通过三个核心模块捕捉多粒度历史信息，结合文本特征提升预测性能，整体架构如图2所示。

1. 核心模块详解

模块名称	功能目标	技术细节
缓存模块（Cache Module）	学习中期趋势（如近几周事件规律）	- 基于GRU更新实体/事件类型的缓存向量，记录近期动态； - 输入包括实体嵌入（来自时序图注意力层）、历史关系缓存、时间嵌入、文本嵌入； - 若同一时间实体/关系有多个消息，取均值避免冗余。
长期记忆模块（Memory Module）	学习长期统计（如数年的事件频率、实体活跃度）	- 初始化记忆矩阵`M`，通过加权平均更新： - 实体/关系出现时：`m_t(v) = (m_{t-1}(v)·(t-1) + W_h·z_t(v))/t`（保留历史平均信息）； - 实体/关系未出现时：`m_t(v) = (m_{t-1}(v)·(t-1))/t`（按时间缩放，体现出现频率）； - 解决RNN"梯度消失"问题，长期保留关键统计特征。
动态文本增强图模块（Text-CompGCN）	捕捉短期触发（如近几天事件交互）	- 改进CompGCN，将文本嵌入融入消息传递过程： - 实体嵌入层：`h_v^(l+1) = f(ΣW_q^l·φ(h_ul, o_r^l)

2. 预测流程

初始化缓存矩阵C和记忆矩阵M；
逐时间步更新缓存（中期趋势）和记忆（长期统计）；
用Text-CompGCN处理近h天的事件图快照，生成图嵌入；
通过RNN编码时序图嵌入，结合sigmoid函数输出目标事件（如次日抗议）的发生概率；
损失函数：二元交叉熵（BCE），适用于事件发生/不发生的二分类任务。

三、实验设置

1. 数据集

基于ICEWS（冲突预警系统）数据集，选取4个国家城市的2010-2016年政治事件数据，包含事件四元组和对应新闻文本，统计如下：

数据集（城市）	正样本比例（抗议事件）	总事件数	实体数	事件类型数
曼谷（泰国）	40.1%	41,274	2,000	204
开罗（埃及）	62.5%	97,341	3,714	219
莫斯科（俄罗斯）	54.0%	217,834	5,833	233
新德里（印度）	53.3%	95,222	3,245	213

2. 基线模型

分为三类对比模型，验证MTG在"多粒度时序"和"文本融合"上的优势：

仅事件输入：逻辑回归（LR_event）、DNN_event、LSTM、CompGCN+RNN、TGN；
仅文本输入：LR_text、DNN_text、DynamicGCN、T-GCN；
事件+文本输入：Glean（现有融合模型）。

3. 评估方法

数据划分：采用"滚动验证（Walk-forward）"，按时间顺序分5组验证/测试集，避免训练-测试分布偏差；
指标：F1分数（精确率与召回率调和平均）、平衡准确率（BACC，适用于不平衡数据）；
超参数 ：文本嵌入（BERT，384维）、缓存/记忆大小（32）、实体/关系嵌入维度（64）、历史窗口h=7天、预测提前期Δt=1/3/5天。

四、实验结果

1. 预测性能（表III）

MTG在所有数据集上的F1和BACC均优于基线模型，平均相对提升：

F1：3.0%，BACC：2.6%；
关键优势：
- 相比仅短期依赖模型（如DynamicGCN、T-GCN），MTG的长期记忆模块捕捉了历史统计规律；
- 相比未融合文本的模型（如TGN、CompGCN+RNN），Text-CompGCN提升了语义关联建模；
- 相比Glean（现有融合模型），MTG避免了文本与图谱的"分离建模"，融合更紧密。

2. 消融实验（图4）

验证核心模块的必要性：

移除文本特征（w/o text）：F1和BACC均下降，说明文本语义对事件上下文补充有效；
同时移除文本和记忆模块（w/o text or memory）：性能降幅最大，证明长期记忆模块对捕捉中长期依赖的关键作用。

3. 超参数敏感性

提前期（Δt）：MTG在Δt=3/5天时性能优于Δt=1天，因事件触发到发生存在时间延迟；
特征维度：实体/关系嵌入维度从32增至128时性能显著提升，超过128后趋于稳定（边际效益递减）；
记忆大小：记忆占比≤50%（总特征大小64）时性能稳定，占比过高（如48/64）会稀释短期信息，导致性能下降。

4. 模型复杂度（表IV）

MTG参数数量（736,062）低于同类融合模型（如Glean：1,265,004、CompGCN+RNN：1,061,407），因通过缓存/记忆复用历史特征，减少了冗余参数。

五、关键结论与意义

核心贡献 ：
- 提出多粒度时序建模框架，首次同时捕捉短期触发、中期趋势、长期统计三类依赖；
- 设计Text-CompGCN，将文本嵌入无缝融入图消息传递，避免独立文本模块的局限性；
- 验证了长期记忆模块对解决RNN"梯度消失"、保留历史统计信息的有效性。
应用价值 ：
- 可用于社会事件预测（如抗议、冲突），帮助决策者提前制定应对策略；
- 模型架构可迁移至金融（如股市波动）、化学（如分子动态）、社交网络（如舆情传播）等领域。
未来方向 ：
- 扩展至多模态时序图（如结合图像、音频数据）；
- 探索跨领域事件依赖建模（如全球经济与区域社会事件的关联）。

六、补充信息

代码开源地址：https://github.com/yuening-lab/MTG；
文本嵌入：采用预训练Sentence-BERT生成语义向量；
时序图注意力：通过多头注意力（Multi-Head Attention）聚合实体邻居信息，缓解"节点表示过时"问题。