论文略读:Knowledge is a Region in Weight Space for Finetuned Language Models

EMNLP 2023

  • 神经网络研究长期以来主要聚焦于单个模型在单个数据集上的行为与特性 ,但对于不同模型之间的关系 ,我们知之甚少。

    • 本文试图弥补这一空白,探索模型之间在权重空间和损失函数景观中的联系
  • 研究发现:
    *

    权重空间中的聚集性
    • 在同一个数据集上微调的,架构相同的语言模型,在权重空间中形成紧密的聚类(tight cluster)

    • 对于来自同一任务但不同数据集 的微调模型,它们在权重空间中也形成一个相对较松散的聚类(looser cluster)

    • 换言之,模型的"几何位置"能够反映出它们的任务相似性和数据分布。

  • 性能区域的连通性

    • 所有在同一任务上表现良好的模型,集中分布在权重空间的某一特定区域

    • 更重要的是,该区域内任意位置的模型都具有较高性能

    • 即使这些模型未在某个特定任务上微调过,只要它们处于"好模型"之间的区域,也可能在该任务上表现良好。

  • 基于以上观察,作者设计了一种高效微调的起点选择策略

    • 不再直接使用预训练模型,而是从多个微调模型形成区域的中心点开始微调
相关推荐
杨夏同学3 分钟前
AI入门——如何计算神经网络的参数
人工智能·深度学习·神经网络
好运的阿财8 分钟前
大模型热切换功能完整实现指南
人工智能·python·程序人生·开源·ai编程
互联网江湖14 分钟前
千问闯关AI混沌期:阿里画靶,吴嘉张弓,马云射箭?
人工智能
AI品信智慧数智人21 分钟前
景区AI伴游革新!山东品信数字人智能语音交互系统,重构文旅智慧体验✨
人工智能
大喵桑丶22 分钟前
ZABBIX7二次开发AI监控数据调取杂记
大数据·人工智能·python
龙文浩_37 分钟前
AI中NLP的注意力机制的计算公式解析
人工智能·pytorch·深度学习·神经网络·自然语言处理
北京软秦科技有限公司37 分钟前
物流运输环境检测进入AI报告审核时代:IACheck如何重塑报告精准性与全流程质量把控?
大数据·人工智能
鬼先生_sir40 分钟前
Spring AI Alibaba 用户使用手册
java·人工智能·springai
跟着狗蛋学安全1 小时前
Windows本地大语言模型部署
人工智能·语言模型·自然语言处理