CLIP-LITE造假

起因:

训练发现JSD完全不收敛
不收敛原因:

翻到了这篇博客:https://blog.csdn.net/weixin_44441131/article/details/105878383,JS在两个分布完全不重合时为常量log2梯度为0,导致无法收敛,我没学过信息论,给文章搞蒙了

翻了一下作者是个印度人,发表在CCF-C会议,草泥马的,浪费老子一天时间

也算是学到了一点关于散度的东西,看文章前一定要看下作者和发表在哪

相关推荐
西猫雷婶13 小时前
scikit-learn/sklearn学习|广义线性回归损失函数的基本表达式
深度学习·神经网络·学习·机器学习·线性回归·scikit-learn·概率论
IMER SIMPLE13 小时前
人工智能-python-深度学习-神经网络-MobileNet V1&V2
人工智能·python·深度学习
盼小辉丶13 小时前
TensorFlow深度学习实战(37)——深度学习的数学原理
人工智能·深度学习·tensorflow
一碗白开水一13 小时前
【论文阅读】Far3D: Expanding the Horizon for Surround-view 3D Object Detection
论文阅读·人工智能·深度学习·算法·目标检测·计算机视觉·3d
nju_spy13 小时前
李沐深度学习论文精读(二)Transformer + GAN
人工智能·深度学习·机器学习·transformer·gan·注意力机制·南京大学
张较瘦_14 小时前
[论文阅读] 人工智能 + 软件工程 | TDD痛点破解:LLM自动生成测试骨架靠谱吗?静态分析+专家评审给出答案
论文阅读·人工智能·软件工程
CoovallyAIHub14 小时前
SBP-YOLO:面向嵌入式悬架的轻量实时模型,实现减速带与坑洼高精度检测
深度学习·算法·计算机视觉
HuggingFace15 小时前
ZeroGPU Spaces 加速实践:PyTorch 提前编译全解析
pytorch·zerogpu
CoovallyAIHub15 小时前
医药、零件、饮料瓶盖……SuperSimpleNet让质检“即插即用”
深度学习·算法·计算机视觉
跳跳糖炒酸奶15 小时前
第六章、从transformer到nlp大模型:编码器-解码器模型 (Encoder-Decoder)
深度学习·自然语言处理·transformer