论文略读:Knowledge is a Region in Weight Space for Finetuned Language Models

EMNLP 2023

  • 神经网络研究长期以来主要聚焦于单个模型在单个数据集上的行为与特性 ,但对于不同模型之间的关系 ,我们知之甚少。

    • 本文试图弥补这一空白,探索模型之间在权重空间和损失函数景观中的联系
  • 研究发现:
    *

    权重空间中的聚集性
    • 在同一个数据集上微调的,架构相同的语言模型,在权重空间中形成紧密的聚类(tight cluster)

    • 对于来自同一任务但不同数据集 的微调模型,它们在权重空间中也形成一个相对较松散的聚类(looser cluster)

    • 换言之,模型的"几何位置"能够反映出它们的任务相似性和数据分布。

  • 性能区域的连通性

    • 所有在同一任务上表现良好的模型,集中分布在权重空间的某一特定区域

    • 更重要的是,该区域内任意位置的模型都具有较高性能

    • 即使这些模型未在某个特定任务上微调过,只要它们处于"好模型"之间的区域,也可能在该任务上表现良好。

  • 基于以上观察,作者设计了一种高效微调的起点选择策略

    • 不再直接使用预训练模型,而是从多个微调模型形成区域的中心点开始微调
相关推荐
飞哥数智坊7 分钟前
GPT-5:让 OpenAI CEO 眩晕的“天啊”时刻
人工智能
sssammmm1 小时前
AI入门学习-Python 最主流的机器学习库Scikit-learn
人工智能·python·机器学习
qq_436962181 小时前
奥威BI+AI数据分析解决方案:驱动企业数智化转型的智能引擎
人工智能·数据挖掘·数据分析
说私域2 小时前
开源链动2+1模式AI智能名片S2B2C商城小程序的场景体验分析
人工智能·小程序
青梅主码-杰哥2 小时前
中央广播电视总台联合阿里云研究院权威发布《中国人工智能应用发展报告(2025)》:我国依旧需要大力注重人工智能人才的培养
人工智能·阿里云·云计算
go54631584652 小时前
基于阿里云平台的文章评价模型训练与应用全流程指南
图像处理·人工智能·深度学习·阿里云·cnn·机器人·云计算
静心问道2 小时前
BiLLM:突破大语言模型后训练量化的极限
人工智能·语言模型·自然语言处理
鲲鹏混子鱼2 小时前
FreeSwitch通过Websocket(流式双向语音)对接AI实时语音大模型技术方案(mod_ppy_aduio_stream)
人工智能·websocket·ai大模型·freeswitch插件·智能语音客服·双向实时语音·sip网关
茫茫人海一粒沙2 小时前
DPO:大语言模型偏好学习的高效方案
人工智能
终端域名3 小时前
人工智能与云计算双轮驱动:元宇宙如何重构全球产业生态
人工智能·云计算·元宇宙