论文阅读 - Data-driven ideology detection: a case study of far-right extremist

https://opus.lib.uts.edu.au/bitstream/10453/164081/2/DHSS2022-Abstract-Submission%20%28arXiv%29.pdf

背景：

影响力和信息运动经常利用国内持极端观点的团体。在州一级，影响力行动最好被理解为一场运动：为误导公众和影响决策者而部署的一系列信息行动。影响力行动越来越多地成为针对社会凝聚力（Asmolov G.，2018）以及对民主职能和联盟的信任的虚假信息叙述。对于这两个目标，国内极端主义团体是完美的受众，也是达到预期效果的放大工具。

目标：

社交媒体是首选渠道，可以让虚假信息叙事以低廉的成本、远程和实时的方式传播到国内和全球受众，并渗透到目标受众的传统信息生态系统中。这里也是国内极端组织聚集、交流、策划的地方；极端主义的参与会导致暴力行为（Hassan G. et al., 2018）。 Twitter、Gab 和 Telegram 等社交媒体平台的庞大规模使得监管它们变得不切实际------极端分子隐藏在众目睽睽之下。平台缓解策略------比如 Twitter 的账户暂停------只会让事情变得更糟，因为个人会创建新账户，而调查人员却失去了踪迹。那么，我们如何构建一个意识形态检测工具，利用先进的机器学习来挑选出潜在的极右活动人士呢？

方法：这项工作根据社交媒体帖子中的语言使用情况构建社交媒体数据驱动的意识形态检测。我们的解决方案基于同质相似性（Ackland & Shorish，2014）。我们假定，社交媒体用户如果花大量时间与特定群体（如极右翼）为伍，就会接受他们的思想和叙事方式。我们将用户如何撰写内容（或以其他方式与话题概念（如标签或新闻链接）互动）作为其意识形态相似性的代理变量。相同叙事的用户会聚集在一起。

从技术角度来看，我们的解决方案利用了transformer等深度神经架构（Cer D. 等人，2018 年）。对于一个新用户，我们会将其撰写的文本嵌入到一个数字描述空间中。我们还会考虑他们的标签使用情况（如果在 Twitter 上）以及他们链接的新闻文章。我们通过transformer和分类算法处理这些信息，预测用户是否与已知的极右翼活动家相似。

结果：我们将我们的方法应用于推特上有关气候变化、COVID-19 和疫苗接种阴谋论的帖子数据集（Kong Q. 等人，2022 年）。我们使用 1496 个被标记为极右派的账户来训练我们的模型。我们使用交叉验证设置来测试泛化误差，结果发现我们可以准确检测到极右帖子（曲线下面积 ROC：0.853）。我们进行了删减，发现到目前为止，人们的写作方式最有参考价值。

结论

我们的方法与领域无关：我们可以快速将其部署到新的讨论领域，而无需进一步的数据注释。这可以大大减少部署解决方案所需的时间和专家注释所需的时间。

对国防的影响：国家支持的影响力行动损害了澳大利亚及其盟国的海外利益。我们的研究提供了一个强有力的框架，可用于识别国家支持的行动者所兜售的特定极端主义意识形态的同情者。