起因:
训练发现JSD完全不收敛 不收敛原因:
翻到了这篇博客:https://blog.csdn.net/weixin_44441131/article/details/105878383,JS在两个分布完全不重合时为常量log2梯度为0,导致无法收敛,我没学过信息论,给文章搞蒙了
翻了一下作者是个印度人,发表在CCF-C会议,草泥马的,浪费老子一天时间
也算是学到了一点关于散度的东西,看文章前一定要看下作者和发表在哪