论文略读:Knowledge is a Region in Weight Space for Finetuned Language Models

EMNLP 2023

  • 神经网络研究长期以来主要聚焦于单个模型在单个数据集上的行为与特性 ,但对于不同模型之间的关系 ,我们知之甚少。

    • 本文试图弥补这一空白,探索模型之间在权重空间和损失函数景观中的联系
  • 研究发现:
    *

    权重空间中的聚集性
    • 在同一个数据集上微调的,架构相同的语言模型,在权重空间中形成紧密的聚类(tight cluster)

    • 对于来自同一任务但不同数据集 的微调模型,它们在权重空间中也形成一个相对较松散的聚类(looser cluster)

    • 换言之,模型的"几何位置"能够反映出它们的任务相似性和数据分布。

  • 性能区域的连通性

    • 所有在同一任务上表现良好的模型,集中分布在权重空间的某一特定区域

    • 更重要的是,该区域内任意位置的模型都具有较高性能

    • 即使这些模型未在某个特定任务上微调过,只要它们处于"好模型"之间的区域,也可能在该任务上表现良好。

  • 基于以上观察,作者设计了一种高效微调的起点选择策略

    • 不再直接使用预训练模型,而是从多个微调模型形成区域的中心点开始微调
相关推荐
甲维斯38 分钟前
500块的豆包,能帮我搞定这个么?!
人工智能
火山引擎开发者社区1 小时前
当 Agent 自己做 SRE:详解 ArkClaw 自动化可观测体系的工程实践
人工智能
Coffeeee3 小时前
两个例子,帮你快速理解什么是Token
人工智能·程序员·ai编程
饼干哥哥3 小时前
用AI全自动剪辑,日更 100条爆款视频——HyperFrames、Remotion、Git使用入门
人工智能·机器学习·ai编程
用户83244598541323 小时前
深入拆解 AlexNet:跟着一张猫咪照片,看数据如何流动
人工智能
饼干哥哥3 小时前
开源Skills|搭建亚马逊动态关键词库系统,每天抓SSS级机会词
人工智能·深度学习·数据分析
Weigang4 小时前
别等 Agent 上线后补评估:先用 DeepEval 写失败样本
人工智能
MomentYY4 小时前
AI 到底是“懂”,还是在“猜”?
前端·人工智能·ai编程
拾光拾趣录4 小时前
为什么采用多路检索而不是单一向量检索?
人工智能
拾光拾趣录4 小时前
Agent 编排器是怎么设计的?为什么这样设计?
人工智能