革命性的机器学习算法可检测社交媒体上的虚假 ID
- 研究人员开发了一种基于机器学习技术的新方法来识别社交媒体平台上的虚假用户。
- 该算法基于这样的假设:虚假用户倾向于与其他用户建立不适当的链接。
- 结果表明该算法能够检测真实用户和恶意用户。
识别虚假用户已成为社交网络公司的首要任务,尤其是在俄罗斯有针对性地利用社交网站影响美国大选并且未能保护用户隐私之后。
现在,华盛顿大学和内盖夫大学的研究人员构建了一种新颖的通用无监督学习算法,可以在 Twitter 和 Facebook 等社交网络平台上定位虚假用户。
新算法基于这样的预测:虚假用户往往会创建与网络中其他用户的不适当链接。研究人员将链接预测方法融入到不需要任何先验图知识的异常检测模型中。
算法如何工作?
图拓扑已被用来构建一种新颖的通用方法来检测大型复杂网络中的异常顶点。该算法有 2 次基于机器学习技术的关键迭代。
- 创建一个链接预测分类器,用于估计两个用户之间的链接概率。
- 根据链接预测分类器生成的特征创建新的元特征集。
研究人员提出了 7 个新特征,这些特征被认为是检测异常的有效预测因子。为了确定哪些新特征影响最大,他们使用 Weka 的信息增益属性选择算法检查了它们的重要性。
参考:SpringerLink | doi:10.1007/s13278-018-0503-4 |后台管理单元
然后,他们对 3 种复杂网络进行了广泛的实验评估:带有标记异常顶点的现实世界网络、带有模拟异常顶点的现实世界网络和完全模拟网络。
谈到数据集,他们使用了 10 个不同的网络,包括 Flixster10、Dblp8、Yelp、Academia.edu、ArXiv5 和 Twitter。
红色顶点表示异常顶点,红色边为假的概率最低
结果表明,该算法能够检测真实网络(包括 Twitter)上的真实用户和恶意用户。它的性能优于其他异常检测技术,据开发人员称,它具有广泛的应用潜力,特别是在网络安全领域。
下一步是什么?
开发人员计划检查其他类型网络的算法,例如加权图和二分图。他们还将研究当随机边和顶点连接时网络的属性会发生什么。
他们将进一步展示如何使用相同的算法来检测社交平台中被劫持的帐户。此外,看看需要实施多大规模的 Sybil 攻击,以便不再能够区分真实和虚假的顶点,这可能会很有趣。
阅读:22 个免费社交网络分析工具
目前,研究人员已在线发布了所有代码和数据,包括包含标记的假 ID 的真实数据集。任何人都可以将其用作开放框架,增强未来的顶点异常检测方法,并比较其结果。
工业技术