gensim conherence model C_V 值与其他指标负相关BUG

在我用gensim3.8.3 conherence model分析京东评论主题模型时, C_V 与npmi、u_mass出现了强烈的皮尔逊负相关:

这些地方也反映了类似问题:

https://github.com/dice-group/Palmetto/issues/12

https://github.com/dice-group/Palmetto/issues/13

https://github.com/dice-group/Palmetto/issues/76

按道理来说,这些一致性评分都是越高越好。这里是怎么回事呢?

原来是原实现代码的gamma值搞错了,应该设置为1而不是2:

https://github.com/dice-group/Palmetto/issues/81

ps:截至2023.07.27,我电脑里的gensim版本还是3.8.1,没有更新到最新版的gensim(4.3.0),因此不知道gensim是否已修复此问题。肯折腾的朋友可以去尝试一下

相关推荐
Duang14 小时前
从零推导指数估值模型 —— 一个三因子打分系统的设计思路
数据分析·领域驱动设计
Sylvia33.4 天前
火星数据:解构斯诺克每一杆进攻背后的数字语言
java·前端·python·数据挖掘·数据分析
Flying pigs~~4 天前
机器学习之逻辑回归
人工智能·机器学习·数据挖掘·数据分析·逻辑回归
YangYang9YangYan4 天前
2026中专计算机专业学数据分析的实用价值分析
数据挖掘·数据分析
YangYang9YangYan4 天前
2026高职大数据管理与应用专业学数据分析的价值与前景
数据挖掘·数据分析
babe小鑫4 天前
大专经济信息管理专业学习数据分析的必要性
学习·数据挖掘·数据分析
ALGO阿狗5 天前
SimpleDateFormat(“YYYY-MM-dd“)格式化时间出现了bug?
bug
weixin_440401695 天前
Python数据分析-数据可视化(柱状图bar【双轴柱状图、动态柱状图】)
python·信息可视化·数据分析
babe小鑫5 天前
高职大数据管理与应用专业学习数据分析的价值
学习·数据挖掘·数据分析