CLIP-LITE造假

起因:

训练发现JSD完全不收敛
不收敛原因:

翻到了这篇博客:https://blog.csdn.net/weixin_44441131/article/details/105878383,JS在两个分布完全不重合时为常量log2梯度为0,导致无法收敛,我没学过信息论,给文章搞蒙了

翻了一下作者是个印度人,发表在CCF-C会议,草泥马的,浪费老子一天时间

也算是学到了一点关于散度的东西,看文章前一定要看下作者和发表在哪

相关推荐
pp起床4 小时前
Gen_AI 补充内容 Logit Lens 和 Patchscopes
人工智能·深度学习·机器学习
阿杰学AI5 小时前
AI核心知识91——大语言模型之 Transformer 架构(简洁且通俗易懂版)
人工智能·深度学习·ai·语言模型·自然语言处理·aigc·transformer
芷栀夏5 小时前
CANN ops-math:筑牢 AI 神经网络底层的高性能数学运算算子库核心实现
人工智能·深度学习·神经网络
Rorsion6 小时前
PyTorch实现二分类(单特征输出+单层神经网络)
人工智能·pytorch·分类
Yeats_Liao8 小时前
评估体系构建:基于自动化指标与人工打分的双重验证
运维·人工智能·深度学习·算法·机器学习·自动化
Tadas-Gao8 小时前
缸中之脑:大模型架构的智能幻象与演进困局
人工智能·深度学习·机器学习·架构·大模型·llm
2301_818730569 小时前
transformer(上)
人工智能·深度学习·transformer
木枷9 小时前
Online Process Reward Learning for Agentic Reinforcement Learning
人工智能·深度学习·机器学习
陈天伟教授9 小时前
人工智能应用- 语言处理:02.机器翻译:规则方法
人工智能·深度学习·神经网络·语言模型·自然语言处理·机器翻译
却道天凉_好个秋9 小时前
Tensorflow数据增强(三):高级裁剪
人工智能·深度学习·tensorflow