关系型数据挖掘（Relational data mining）

中心性度量

图模型

基准（benchmarks）

简介：使用jupyter notebook、python3、igraph包

关系型数据

术语

监督学习：分类（classification）、回归（regression）
无监督学习：聚类（clustering）、密度估计（density estimation）、降维（dimension reduction）、异常值检测（outlier detection）。
半监督学习：标记的数据很少，同时使用标记和未标记的数据

特征：feature（连续、分类或排序）

关系型数据

实体表示为点，关系可以表示为边，或超边（是否加权、是否有向）

A和B是朋友
A给B发邮件
A，B和C在同一个团队

关系型数据被建模为图（graphs）或超图（hypergraphs）

, let and ——得到邻接矩阵（一些性质，不再赘述）

完全图（Complete graph），也叫集团（clique）

图会出现在不同场景中：电子邮件交换、蛋白质-蛋白质相互作用图、社交关系（空手道俱乐部）、赛事（大学足球队之间的比赛）

Issues

一个图里面有很多社区，传统机器学习将向量空间进行嵌入降维后可以进行聚类。

有许多工具可以处理这些数据，抽样等统计技术可用于处理大型数据集。

采样保留关键属性（簇、平均距离等），但这些都在图形空间中被破坏。

Problems

中心性度量
寻找社区
异常检测
种子集扩展（seed set expansion）-局部采样
链路（边缘）预测
半监督学习
向量空间嵌入

中心性

度中心性

所有边权值之和

入度、出度：入边权值和、出边权值和

归一化度中心性：无权图（出入）度除以来获得（假设没有自环）

节点中心性

中心性（Centrality）：综合考虑节点度和连接到高度数中心的其他节点

，唯一解为 ——连通图无定义，需要进行扩充定义

定义一：特征向量中心性（eigenvector centrality）

将特征向量中心性定义为与（neighbour’s centrality）成比例

节点i的特征向量中心性是以下方程的解：

有向图，入度和出度分别进行定义

对于连通图，我们测量与最大特征值相对应的特征向量的中心性，最大特征值是实的和正的（Perron Frobenius），即：

u1是主导特征向量
定义二：接近中心性（closeness centrality）

考虑节点之间的最短路径（最小跳数或最小边权重之和）——测地线（geodesic）

dij为最短路径长度，dii=0，不可达定义为无穷，无权图可定义为节点数n
定义三：介数中心性（betweenness centrality）

更常用的方法是考虑所有测地线：
- 定义为节点j和k之间所有的测地线的数量
- 定义为节点j和k之间通过节点i的测地线的数量
定义四：Δ中心性（delta-centrality）

考虑从G中删除某些节点i的影响
- 设P(G)是图G上性能的一些度量
- 设Gi是通过从图G移除与节点i相邻的所有边而获得的图
——注意，我们要保证
- 一种可能的P(G)取值：定义图G的影响力E(G)——
说明：
- 对于不连通图，dij=∞的节点对的贡献为零。
- 通过考虑节点集，所有中心性度量都可以推广到组中心性度量。——节点集的度定义为非g节点连接到g内节点的数量
定义五：谷歌PageRank算法中使用的中心性

思想：互联网中重要页面与许多重要页面相互链接
- 我们在节点i处随机游走：
  - 以概率：跳到随机节点。
  - 以概率：以概率跳到节点j。
  - 可以用代数或迭代（幂）方法获得PageRank值的解
- 在有向图中，我们将中枢（hub）定义为具有高出度的节点，而将权威（authority）定义为具有高度入度的节点。
- 在无向图中，这两个概念是相同的。
定义六：中枢/权威中心性（hub/ authority）

中枢中心性：

权威中心性：

让，我们有：

边中心性

：节点j和k之间的测地线数
：通过边e的节点j和k之间的测地线数。

图模型（随机图）

ER模型：Erdos-Renyi models (ER)
CL模型：Chung-Lu model (CL)
配置模型：Configuration model

ER模型

概念：

G(n, m)模型：n个节点，m条边，任意选两个节点相连。——平均度：k = 2m/n
G(n, p)模型：n个节点，任意两个节点之间以概率p相连（边数期望为Np）。——平均度期望：k = p(n − 1)
- 令p = m/N，此时可以转化为第一种模型

边数分布：

为G(n，p)模型中有m条边的概率，令：（典型二项分布）
假设N很大而p（通常）很小，我们可以使用泊松分布（为平均边数的期望）近似二项分布：

度分布：

某个点度数为k的概率为：（为平均度的期望）
由于近似服从泊松分布，此类模型不生成hubs节点，即真实网络中常见的高阶节点。
可以绘制度分布直方图，用poisson分布曲线可以很好地拟合

直方图

巨型连通分量（Giant connected component-巨片）：（期望平均度）——三种状态

：亚临界状态；没有巨片，集群主要是树。
：超临界状态；单个巨片，小集群主要是树。
：连通状态；没有孤立的节点或小集群。

——从折线图可以看出，k为1是分界点，一旦超过1，巨片占比迅速扩大；到k = 7逐渐稳定达到100%

CL模型

伯努利Chung-Lu模型

模型：

网络G中的节点为：
每个节点的度为：
两个节点i和j连接边的概率为：（为图的体积——所有节点的度数和）

分布：

我们将定义为使用模型1获得的图G的分布：

其中图为获得的新随机图：
- ，但一般情况下
- 没有重复边
- 有自环

——该模型在实际中不常用，其时间复杂度为

O(m) Chung-Lu模型

模型：

只需要的时间复杂度，更常用
在顶点V中选择条边，
根据多项式分布从V独立采样：
边可以重复，所以我们得到的是预期的边数而不是概率

分布：

我们将定义为使用模型1获得的图G的分布：

其中图为获得的新随机图：
- 我们总是有
- 允许存在多条边
- 也允许有自环

注意：

对于模型II，我们可以忽略重复的多条边，这会减小图的总度期望（体积）
对于这两种模型，我们都可以忽略自边（自环），这会再次减小总体积

配置模型（Degree Sequence）

提出：

Chung Lu模型是边生成的概率模型，生成度序列的期望和原来的相等。
对于配置模型，我们为节点指定一个精确的度序列
所有具有n个节点和这个精确度序列的图被认为是以相同的概率出现的。

模型：

对于每个节点i，我们指定个残边（stubs）——半条边
残边随机互联
可能会产生自环或重复边
对于该模型，节点之间的预期边数为：

对于自环：

边总数的期望为：

基准（小世界幂律）

小世界网络
聚类系数
幂律网络
Barabasi Albert和其他模型

小世界网络

背景：

真实图通常不像 ER图或 CL图具有均匀的度分布
真实图中的一些性质：
1. 节点之间路径相对较短（小直径）(small diameter)
2. 局部密度行为（三角形，社区）(triangles, communities)
3. 大量的低度节点
4. 存在高度节点（枢纽，权威）(hubs, authorities)

定义：如果特征路径长度（节点之间的平均距离）与节点数n的对数成正比增长，那么图就表现出小世界行为。

“六度分割”理论：今天的社会网络通常有较低的特征路径长度（任意两人之间的平均关系路径长度为6）

聚类系数

背景：

大多数网络，特别是社会网络，都表现出同质性（homophily）。——朋友之间分享好友的概率大于随机建立

衡量：

我们可以通过观察图中的三角形（图的传递性(graph transitivity)）或每个节点的邻居之间的边缘密度（聚类系数(clustering coefficient)）来衡量这一点。

定义一个图

图传递性
- 三元组（triad）是一个由3个节点组成的子图，形成一棵树；设为图G中三元组的数量。
- 一个三角形（triangle）是一个有3个节点的完全连接的子图；设是图G中三角形的数量。
图传递性定义为：
聚类系数
- 对于一个度数为的给定节点，让表示节点i的邻居之间的边数
- 节点i的（本地）聚类系数定义为：
- 它也被称为局部传递性，因为它对应于节点i的自我网络（ego-net）的
图G的聚类系数定义为：

也被称为平均局部传递性

注意：和往往相似，但这其实是误导

考虑以下有n+2个节点（n个灰色节点）的图

特例
- ：，
- ：红色节点，灰色节点

对于ER随机图来说，两个点之间形成边的概率为p，所以ER图的两个指标值都为概率p。

幂律网络

背景：

在幂律函数中，一个量按另一个量的幂进行变化
在度分布中很常见
设是度数为k的节点的比例

c是归一化常数
对于社会网络中的度分布，通常观测到的数值是

齐普夫定律：（Zipf’s law 二八定律是它的一个特例）

在书面语言中，从等级r=1开始，按出现的顺序递减排列词语
根据Zipf定律，等级为r的词出现的比例与1/r成正比

幂律函数是无标度或标度不变的：（scale-free / scale-invariant）

标度改变时，函数曲线的形状和函数的指数都没有变，即具有标度不变性

在复杂网络上任选一局部，由于其自相似性，局部网络的形态、规律、功能均与原网络不会发生变化，即在尺度伸缩时具有对称性。——类似于分型

定义的函数：
- 其中只有常数作为乘数a的函数而变化
在实践中，我们可以从参数为γ的幂律分布中，在某个区间[dmin, dmax]内抽取一串度数。
然后我们通过配置模型或CL模型生成一个图
- CL模型可能会出现孤立点：因为存在大量低（期望）度的节点

举例：

见notebook

总结：

幂律网络表现出的度分布为：
1. 许多低度节点
2. "长尾"（long tail）——高度节点的存在
  
  这样的高度节点被称为枢纽（有向图的枢纽和权威 hubs and authorities）

BA网络（Barabasi-Albert）

一种典型的幂律分布网络

概念：

这是一个优先依附模式的例子，也被称为富者愈富
逐个节点生成图：
- 在步骤t=0时，从一些初始图（例如：空图，小集团-small clique）开始。
- 在步骤t>0时，向现有的节点添加一个新的节点，其边数为（最多为）m
- 新节点与（现有）节点i有一条边的概率与添加这个新节点之前节点i的度数成正比。
- 继续下去，直到生成n个节点

性质：

该模型倾向于依附于高度节点，从而形成枢纽
同理，度数为k的节点的比例为：
存在几种变型
ER随机网络就没有这种幂律分布特性

关系型数据

术语

关系型数据

Issues

Problems

中心性

度中心性

节点中心性

边中心性

相关性

图模型（随机图）

ER模型

CL模型

伯努利Chung-Lu模型

O(m) Chung-Lu模型

配置模型（Degree Sequence）

基准（小世界 幂律）

小世界网络

聚类系数

幂律网络

BA网络（Barabasi-Albert）

基准（小世界幂律）