自动评估

HuggingFace1 个月前
自动评估
自动评估基准 | 一些评估测试集这是 自动评估基准 系列文章的第三篇,敬请关注系列文章:如果你感兴趣的任务已经得到充分研究,很可能评估数据集已经存在了。
HuggingFace1 个月前
自动评估
自动评估基准 | 技巧与提示过去几年,大语言模型 (LLM) 的进程主要由训练时计算缩放主导。尽管这种范式已被证明非常有效,但预训练更大模型所需的资源变得异常昂贵,数十亿美元的集群已经出现。这一趋势引发了人们对其互补方法的浓厚兴趣, 即推理时计算缩放。推理时计算缩放无需日趋庞大的预训练预算,而是采用动态推理策略,让模型能够对难题进行“更长时间的思考”。最著名的案例是 OpenAI 的 o1 模型,随着推理时计算量的增加,该模型在数学难题上获得了持续的改进:
HuggingFace1 个月前
人工智能·自动评估
自动评估基准 | 设计你的自动评估任务这是 自动评估基准 系列文章的第二篇,敬请关注系列文章:做评估时,你可以选择现有的数据集 (参考 一些评估数据集 页面) 作为测试集,也可以设计自己的数据集。有一点非常重要,请注意:评估的结果与评估的数据集质量高度相关 。
HuggingFace1 个月前
自动评估
自动评估基准 | 基础概念这是 自动评估基准 系列文章的第一篇,敬请关注系列文章:注:本文内容与我写的 通用评估博客 存在部分重叠