python实战(十三)——基于Bert+HDBSCAN的微博热搜数据挖掘众所周知,微博热搜几乎是许多网友的主要新闻来源,上面实时更新着当前最新的社会消息,其时效性甚至比每天晚上播出的新闻联播还要强。这篇文章,我们使用来自Kaggle的《MicroBlog-Hot-Search-Labeled》数据集,对其中的热搜词条文本进行探索性分析,不考虑源数据集中每条文本所带有的标签,通过无监督的方式挖掘一下热搜文本中所包含的有效信息。这一任务需求类似于我们工作中所碰到的各种除了文本之外没有任何其他的辅助信息的数据集,而NLP技术则给了我们能力在这样的数据中去挖掘出有价值的东西。例如在这