文章目录
在线社交网络分析
什么是在线社交网络
在线社交网络是一种在信息网络 上由社会个体集合 及个体之间的连接关系 构成的社会性结构。
- 三个维度
也叫三个要素,包含关系结构 、网络群体 、网络信息 。
(1)关系结构为网络群体互动行为提供了平台,是载体 。
(2)网络群体直接推动网络信息传播,并反过来影响关系结构,是主体 。
(3)网络信息及其传播是网络的出发点和归宿、群体行为的诱因和效果、同样影响关系结构,是客体。
什么是在线社交网络分析
在线社交网络分析是指从网络结构 、群体互动 、信息传播 三个维度,为理解人类各种社交关系的形成、行为特点分析以及信息传播的规律提供的一种可计算的分析方法。
社交网络信息传播基本模型
信息传播模型包括两个:影响力模型和传染模型。
我们一般假设一个网络,里面由无数个节点和节点的连接组成。
影响力模型
- 每个节点有两种状态:活跃和不活跃。只有活跃的节点才具有影响力,能够影响其他节点。
- 一个节点被影响成功,称为该节点被激活。
- 网络中的影响力传播表现为节点被激活。状态转变是单向的,即无法从活跃变为不活跃。
(1)独立级联模型
在 t 时刻被激活的节点在 t+1 时刻仅有一次机会去影响邻居;
假设节点 v 在 t 时刻被激活,则对于 v 的任何邻居 w,在 t+1 时刻被激活的概率是 P V W P_{VW} PVW。
(2)线性阈值模型
任何时刻,被激活的点可以激活其余点;
每个节点都有激活阈值;
影响程度超过阈值则被激活。
传染模型
- 传染模型也叫流行病模型。
- 节点有三种状态:易感人群
可能会感染疾病
、感染人群有机会去感染别人
、免疫人群被感染治愈后不会再次感染
。 - 我们把易感节点称为 S,感染节点称为 I,免疫节点称为 R,则有:
(1)SI 模型
有 S 和 I 节点;
一个节点被感染,会持续传染周围的节点;
I 会尝试以概率 β \beta β 去感染周围的 S。
(2)SIS 模型
有 S 和 I 节点;
在 SI 模型的基础上,被感染的节点 I 有概率 μ \mu μ 被治愈回易感节点 S。
(3)SIR 模型
有 S、I 和 R 节点;
在 SI 模型的基础上,被感染的节点 I 有概率 μ \mu μ 被治愈成免疫节点 R。
(4)SIRS 模型
有 S、I 和 R 节点;
在 SIR 模型的基础上,R 有概率 η \eta η 转化回易感节点 S。
- 我们以 SIR 为例子:
(1)总人口为 N ( t ) N(t) N(t),则有 N ( t ) = s ( t ) + i ( t ) + r ( t ) N(t)=s(t)+i(t)+r(t) N(t)=s(t)+i(t)+r(t)。这些是节点 S 在 t 时刻的人数。(I、R 同理)
(2)三个假设
假设1:人口 N ( t ) N(t) N(t) 始终保持常数,即 N ( t ) = K N(t)=K N(t)=K;
假设2:t 时刻单位时间内,一个病人能传染的数目与此刻的 s ( t ) s(t) s(t) 成正比,系数为 β \beta β,则在 t 时刻内所有被传染的人数为 β s ( t ) i ( t ) \beta s(t)i(t) βs(t)i(t);
假设3:t 时刻单位时间内,从染病者中被移出的人数与病人数量成正比,系数为 γ \gamma γ,则在 t 时刻被移出者的数量为 γ i ( t ) \gamma i(t) γi(t)。
(3)感染机制如下:
(4)当易感个体和感染个体充分混合时,感染个体的增长率为 β s ( t ) i ( t ) − γ i ( t ) βs(t)i(t)-γi(t) βs(t)i(t)−γi(t),易感个体的下降率(就是感染个体的增长率,也不知道为啥非得说成易感个体的下降率,难听)
为 β s ( t ) i ( t ) βs(t)i(t) βs(t)i(t),恢复个体的增长率为 γ i ( t ) γi(t) γi(t)。易感者从患病到移出的过程可以用微分方程表示如下:
(5)上述微分方程解得 I = ( S 0 + I 0 ) − S + 1 σ l n S S 0 I=(S_0+I_0)-S+\frac{1}{\sigma}ln\frac{S}{S_0} I=(S0+I0)−S+σ1lnS0S, S S S 和 S 0 S_0 S0 表示初始, σ \sigma σ 表示传染期接触数 σ = β γ \sigma=\frac{\beta}{\gamma} σ=γβ。
(6)为保证疾病不蔓延,需要使 S 0 < 1 σ S_0 < \frac{1}{\sigma} S0<σ1。
影响力计算公式
给定集合 S,集合 S 对网络的影响力计算公式如下:
σ ( x ) = 1 M ∑ 1 M ∣ R ( S ) ∣ \sigma(x)=\frac{1}{M}\sum_{1}^{M}|R(S)| σ(x)=M11∑M∣R(S)∣其中, R ( S ) R(S) R(S) 为 S 中节点影响网络中节点的数目, M M M 为给定的模拟次数。对集合 S 模拟影响力传播 M M M 次,得到每个传播得到的影响力结果,取平均得到集合影响力。
网络舆情监测
网络舆情概述
是以互联网为载体所表达的公众情绪。
- 特征
自发性、指向性、时效性、情绪性、片面性。 - 演化
舆情形成期 -- 舆情高涨期 -- 舆情波动期 -- 舆情消退期。
网络舆情监测系统
- (1)数据采集处理层
主要提供网络数据采集 和预处理功能。 - (2)舆情分析引擎层
主要提供话题检测 、话题跟踪 、倾向性分析 、自动摘要 、中文分词 等功能。
主要完成热点话题的检测 、跟踪及情感倾向性分析 ,并自动摘要 。
核心技术是文本聚类 、文本分类中所采用的算法和模型。 - (3)舆情分析服务层
主要提供突发事件分析 、舆情预警报警 、舆情趋势分析 、舆情统计报告 以及舆情查询检索等各种舆情分析服务,以方便用户使用。 - 网络信息采集
网络信息采集技术涉及搜索引擎 、网络蜘蛛 、网页搜索算法 、网页相关性分析等相关技术。 - 话题检测与跟踪
旨在没有人工干预的情况下自动检索、判断和识别新闻数据流中的话题。