在我用gensim3.8.3 conherence model分析京东评论主题模型时, C_V 与npmi、u_mass出现了强烈的皮尔逊负相关:
这些地方也反映了类似问题:
https://github.com/dice-group/Palmetto/issues/12
https://github.com/dice-group/Palmetto/issues/13
https://github.com/dice-group/Palmetto/issues/76
按道理来说,这些一致性评分都是越高越好。这里是怎么回事呢?
原来是原实现代码的gamma值搞错了,应该设置为1而不是2:
https://github.com/dice-group/Palmetto/issues/81
ps:截至2023.07.27,我电脑里的gensim版本还是3.8.1,没有更新到最新版的gensim(4.3.0),因此不知道gensim是否已修复此问题。肯折腾的朋友可以去尝试一下