gensim conherence model C_V 值与其他指标负相关BUG

在我用gensim3.8.3 conherence model分析京东评论主题模型时, C_V 与npmi、u_mass出现了强烈的皮尔逊负相关:

这些地方也反映了类似问题:

https://github.com/dice-group/Palmetto/issues/12

https://github.com/dice-group/Palmetto/issues/13

https://github.com/dice-group/Palmetto/issues/76

按道理来说,这些一致性评分都是越高越好。这里是怎么回事呢?

原来是原实现代码的gamma值搞错了,应该设置为1而不是2:

https://github.com/dice-group/Palmetto/issues/81

ps:截至2023.07.27,我电脑里的gensim版本还是3.8.1,没有更新到最新版的gensim(4.3.0),因此不知道gensim是否已修复此问题。肯折腾的朋友可以去尝试一下

相关推荐
饼干哥哥2 小时前
开源Skills|搭建亚马逊动态关键词库系统,每天抓SSS级机会词
人工智能·深度学习·数据分析
倔强的石头_2 天前
企业工商数据源站点:无验证无拦截,批量获取工商数据完整方案
数据分析
hboot8 天前
AI工程师第二课 - 数据处理
人工智能·python·数据分析
王小王-1239 天前
基于 Hive 的网易云音乐数据分析及可视化系统
hive·hadoop·数据分析·音乐数据分析·网易云音乐分析·hive音乐分析·hadoop网易云
Database_Cool_9 天前
大规模数据分析降本指南:AnalyticDB Serverless 弹性架构实战
数据仓库·阿里云·架构·数据分析·serverless
YangYang9YangYan9 天前
2026初入职场学习数据分析的价值
学习·数据挖掘·数据分析
砚底藏山河9 天前
沪深A股:如何获取基金持股数据
java·python·数据分析·maven
jarreyer9 天前
【数据分析绘图】excel绘图和bi工具区别
数据挖掘·数据分析·excel
chatexcel9 天前
ChatExcel Max使用教程:图片、PDF、网页与复杂Excel的一站式数据分析
数据分析·pdf·excel