技术栈
评估方法
猫猫不会吃芋头
21 天前
论文
·
评估方法
·
healthcare
[论文笔记/评估方法] RELIABLE AND DIVERSE EVALUATION OF LLM MEDICAL KNOWLEDGE MASTERY
该文章于2025年发表在ICLR(CCF A),早在2024年9月发布在arxiv。文章地址:Reliable and Diverse Evaluation of LLM Medical Knowledge Mastery
dundunmm
10 个月前
人工智能
·
算法
·
机器学习
·
评估方法
机器学习之交叉熵
交叉熵(Cross-Entropy)是机器学习中用于衡量预测分布与真实分布之间差异的一种损失函数,特别是在分类任务中非常常见。它源于信息论,反映了两个概率分布之间的距离。
dundunmm
10 个月前
论文阅读
·
人工智能
·
算法
·
机器学习
·
评估方法
论文阅读:Statistical Comparisons of Classifiers over Multiple Data Sets
论文地址:Statistical Comparisons of Classifiers over Multiple Data Sets (acm.org)
我是有底线的