【文献阅读】Unsupervised Machine Learning for Bot Detection on Twitter

Abstract

引入新特征,并降低所提模型的复杂性,从而提高基于聚类算法的机器人识别准确性。

最小化数据集维度和选择重要特征来实现的。

实验证明该方法的特征可以与四种不同的聚类技术(agglomerating、k-medoids、DBSCAN 和 K-means)结合使用,以解决由缺失标签和异常值引起的机器人识别问题。

通过选择排名靠前的特征并减少维度,达到了 0.99 的准确率。

Methodology

关键原理是识别给定聚类中账户之间的相似性。这些算法生成的预测效果取决于数据的准备情况以及关键特征的识别。

  1. 预处理阶段:数据清理和格式化等。
  2. 特征增强阶段:新特征被创建,并选择最佳特征以改进聚类算法。为了加快聚类过程,采用Principal Component Analysis(PCA)来减少数据维度。
  3. 特征实验与测试阶段:使用四种聚类算法(agglomerating、DBSCAN、K-Means 和 k-medoids),通过无监督学习方法有效处理特征。
  4. 评估阶段:评估系统的性能。

dataset

new features

Experiment


相关推荐
财经三剑客4 分钟前
尚界H5累计交付突破30000台
人工智能·汽车
小爷毛毛(卓寿杰)6 分钟前
SlideFlow: AI 驱动的 PPT 自动化生成引擎
人工智能·自动化·powerpoint·大语言模型
喵手7 分钟前
Python爬虫实战:构建企业级的招投标信息监控工具,多页动态数据抓取,实现去重增量更新(附SQLite持久化存储)!
爬虫·python·爬虫实战·零基础python爬虫教学·sqlite持久化存储·采集招投标信息·多页动态数据抓取
汽车仪器仪表相关领域17 分钟前
70A大电流+三档电压可调:Midtronics MSP-070系列电源充电器汽车ECU刷新与电池维护实战全解
人工智能·功能测试·单元测试·汽车·可用性测试
陆研一19 分钟前
Clawdbot:Mac mini 卖爆背后的 AI 代理革命
人工智能·ai·chatgpt
虎头金猫23 分钟前
内网导航站 “出圈”!用 cpolar 解锁 Dashy 远程访问新玩法
java·c++·python·程序人生·职场和发展·php·程序员创富
小程故事多_8025 分钟前
穿透 AI 智能面纱:三大高危漏洞(RCE/SSRF/XSS)的攻防博弈与全生命周期防护
前端·人工智能·aigc·xss
小咖自动剪辑26 分钟前
ChatTTS本地离线版:高品质AI文字转语音工具完全指南
人工智能
Deepoch28 分钟前
Deepoc具身大模型开发板:赋能电厂巡检机器人,筑牢能源安全防线
人工智能·科技·机器人·巡检·具身模型·deepoc·电厂巡检