君は春の中にいる、かけがえのない春の中にいる.

你驻足于春色中,于那独一无二的春色之中.

英文文献阅读-无需人工标签的虚假用户检测

最近面试微博安全的时候,大BOSS提到微博安全一个重要的点就是虚假刷榜行为的检测,这里就涉及到虚假用户的检测,所以阅读了一篇相关文献。

0x00 文献简介

原文标题: SybilBlind: Detecting Fake Users in Online
Social Networks without Manual Labels

原文作者:Binghui Wang, Le Zhang, and Neil Zhenqiang Gong

原文出处:https://arxiv.org/pdf/1806.04853.pdf (RAID 2018)

虚假用户往往会被攻击者利用来发动政治安全、经济安全、个人安全等方面的攻击,包括操纵选举、控制舆论、影响股票以及垃圾邮件和钓鱼攻击等。作为业务安全的一部分,社交服务提供商十分重视相关安全层面的检测。

0x01 研究背景

本领域已有研究方法如下:

1 基于结构的方法

  • 随机漫步(Random Walks)和混沌置信传播 (LBP)

随机漫步通俗一点说是指我们无法预测运动的下一步动作,但是可以对整个运动的密度分布规律进行掌握,进而进行预测研究的方法。

混沌置信传播是指,马尔科夫随机场中每个节点之间的概率分布会相互干扰,最终在多次迭代中,会达到概率分布的稳态。

  • 社区发现算法(Community Detection Algorithms)

从图结构中找出社群的一系列方法。

2 基于信息的方法

  • 通过对用户内容、用户行为、用户社交结构特征进行分类训练的方法。

其实从这里我们可以看出论文研究中设计模型的两种常见方法,一种是通过理论去计算设计模型,一种是基于实践经验来设计模型,这个问题我觉得可以细聊,这里就不多说了。传统需要 label 的模型存在以下几点问题:

  • 人工标记耗时
  • 无法检测新模式的虚假用户
  • 标记训练集可能被攻击者用于规则逃逸

0x02 论文模型

三部分构成

采样器——检测器——聚合器

采样器对社区图进行相同节点的随机采样标记,检测器利用以前论文中提到的模型进行检测,聚合器根据两个指标进行判别修正检测结果,最后在多次迭代中得到一个趋于稳定的检测模型。

采样器部分提到了随机标记和不同的极化场景,随机标记意味着对于采样结果的区域进行随机label,这时,随机label与真实label之间就会存在差异,这种差异定义为噪声。不同的极化场景会影响已有检测器的性能,正向极化场景下,每个标签域的噪声较小;负向极化场景下,每个标签域的噪声较大;非极化场景下,标签域噪声随机分布。

在这种情况下,利用原有检测器进行检测就会存在问题,因此作者提出对结果进行聚合,聚合的指标主要有两个:

同质性 ,通俗讲就是物以类聚,用公式衡量就是相同属性节点相连的边与所有边的比值。

单边熵 ,衡量虚假用户比例的一个指标,用公式衡量就是虚假用户大于50%,就不正常,单边熵值就为0。其他情况下,单边熵随着虚假用户增加而增加,减少而减少。

在这种情况下,三种场景的对指标的呈现会有不同。

非极化场景下,同质性会很小,这是因为虚假用户和真实用户各占一半。

负极化场景下,同质性大,但单边熵会小,这是因为虚假用户过多。

正极化场景下,同质性大,单边熵也会大,因为虚假用户会维持在一个合理的范围内(不会太大也不会太小)

针对这两个指标评判抽样场景,再决定结果是否应该聚合,最终多次迭代后得到一个虚假用户和真实用户的聚合模型。

0x03 结果分析评估

作者针对模型的理论公式推导和实际实验参数进行比对分析,针对模型的域选择又提出了一种利用跟踪回访率排序抽样的优化方法,最后对多种方法进行比对分析。