0 问题引入
地铁导航图
计算机是看不懂这些图,计算机只能看懂向量、矩阵。
传统图机器学习只讨论连接特征。
问题:1、4象限是一类,2、3象限是一类,如何构建分类器?
构造一个新的特征 x 1 x 2 x_1x_2 x1x2,有利于分开这种数据。
问题:好的数据才能得到好的结果,如何对节点、连接、全图去构造一些新的特征?
很多重要的比赛,大部分时间不是在怎么构造网络、调参,而是在如何清洗数据,如何根据应用场景进行特征提取,获取新的特征。
人需要去翻译这些计算机不懂的特征,变成计算机可以懂的向量、矩阵。为了简化,我们聚焦无向图。
1 节点层面的特征工程
关键的问题是构造好D维特征。
半监督:由已知节点的连接去猜未知节点的连接。
节点的度;
节点重要度;
节点的抱团系数(聚集系数);
子图模式。
1.1 节点连接数
A和G的节点度都是1,但连接的质量不同。
节点的重要度。
1.2 节点重要度