CLIP-LITE造假

起因:

训练发现JSD完全不收敛
不收敛原因:

翻到了这篇博客:https://blog.csdn.net/weixin_44441131/article/details/105878383,JS在两个分布完全不重合时为常量log2梯度为0,导致无法收敛,我没学过信息论,给文章搞蒙了

翻了一下作者是个印度人,发表在CCF-C会议,草泥马的,浪费老子一天时间

也算是学到了一点关于散度的东西,看文章前一定要看下作者和发表在哪

相关推荐
心中有国也有家6 小时前
GE图引擎深度解析——CANN的计算图优化与执行引擎
人工智能·pytorch·python·学习·numpy
瑶总迷弟10 小时前
使用 mis-tei 在昇腾310P上部署 bge-m3模型
pytorch·python·华为·语言模型·自然语言处理·cnn·unix
冰西瓜60012 小时前
深度学习的数学原理(四十一)—— KV Cache
人工智能·深度学习
zhangfeng113312 小时前
ai 模型加密,强化版终极防盗方案 支持烧录的显卡列表
人工智能·pytorch·python
冰西瓜60015 小时前
深度学习的数学原理(四十)—— Transformer 推理全过程
人工智能·深度学习·transformer
jiayong2315 小时前
AI架构师面试问题与解答 - 深度学习架构篇
人工智能·深度学习
xier_ran15 小时前
【infra之路】模块三:Kubernetes (下) — 阶段一毕业项目:在集群里跑 PyTorch 训练
pytorch·容器·kubernetes
是馒头阿15 小时前
95、仇恨与爱
深度学习·神经网络·脑机接口·神经同步采集与刺激平台·植入式脑机接口
不羁的木木16 小时前
《HarmonyOS技术精讲》三:记忆链接 ── 跨场景数据融合
pytorch·华为·harmonyos