【文献阅读】Unsupervised Machine Learning for Bot Detection on Twitter

Abstract

引入新特征,并降低所提模型的复杂性,从而提高基于聚类算法的机器人识别准确性。

最小化数据集维度和选择重要特征来实现的。

实验证明该方法的特征可以与四种不同的聚类技术(agglomerating、k-medoids、DBSCAN 和 K-means)结合使用,以解决由缺失标签和异常值引起的机器人识别问题。

通过选择排名靠前的特征并减少维度,达到了 0.99 的准确率。

Methodology

关键原理是识别给定聚类中账户之间的相似性。这些算法生成的预测效果取决于数据的准备情况以及关键特征的识别。

  1. 预处理阶段:数据清理和格式化等。
  2. 特征增强阶段:新特征被创建,并选择最佳特征以改进聚类算法。为了加快聚类过程,采用Principal Component Analysis(PCA)来减少数据维度。
  3. 特征实验与测试阶段:使用四种聚类算法(agglomerating、DBSCAN、K-Means 和 k-medoids),通过无监督学习方法有效处理特征。
  4. 评估阶段:评估系统的性能。

dataset

new features

Experiment


相关推荐
endcy20162 小时前
基于Spring AI的RAG和智能体应用实践
人工智能·ai·系统架构
Blossom.1183 小时前
移动端部署噩梦终结者:动态稀疏视觉Transformer的量化实战
java·人工智能·python·深度学习·算法·机器学习·transformer
FPGA小迷弟3 小时前
ChatGPT回答用AI怎么怎么赚钱
大数据·人工智能
轻微的风格艾丝凡3 小时前
卷积的直观理解
人工智能·深度学习·神经网络·算法·计算机视觉·matlab·cnn
AiXed3 小时前
PC微信协议之AES-192-GCM算法
前端·数据库·python
月下倩影时3 小时前
视觉进阶篇——机器学习训练过程(手写数字识别,量大管饱需要耐心)
人工智能·学习·机器学习
PixelMind3 小时前
【超分辨率专题】HYPIR:扩散模型先验与 GAN 对抗训练相结合的新型图像复原框架
人工智能·生成对抗网络·扩散模型·图像复原
灵光通码4 小时前
神经网络基本概念
python·神经网络
说私域4 小时前
从裂变能力竞争到技术水平竞争:开源AI智能名片链动2+1模式S2B2C商城小程序对微商企业竞争格局的重塑
人工智能·小程序·开源
xybDIY4 小时前
基于 Tuya.AI 开源的大模型构建智能聊天机器人
人工智能·机器人·开源