论文略读:Knowledge is a Region in Weight Space for Finetuned Language Models

EMNLP 2023

  • 神经网络研究长期以来主要聚焦于单个模型在单个数据集上的行为与特性 ,但对于不同模型之间的关系 ,我们知之甚少。

    • 本文试图弥补这一空白,探索模型之间在权重空间和损失函数景观中的联系
  • 研究发现:
    *

    权重空间中的聚集性
    • 在同一个数据集上微调的,架构相同的语言模型,在权重空间中形成紧密的聚类(tight cluster)

    • 对于来自同一任务但不同数据集 的微调模型,它们在权重空间中也形成一个相对较松散的聚类(looser cluster)

    • 换言之,模型的"几何位置"能够反映出它们的任务相似性和数据分布。

  • 性能区域的连通性

    • 所有在同一任务上表现良好的模型,集中分布在权重空间的某一特定区域

    • 更重要的是,该区域内任意位置的模型都具有较高性能

    • 即使这些模型未在某个特定任务上微调过,只要它们处于"好模型"之间的区域,也可能在该任务上表现良好。

  • 基于以上观察,作者设计了一种高效微调的起点选择策略

    • 不再直接使用预训练模型,而是从多个微调模型形成区域的中心点开始微调
相关推荐
2501_94141855几秒前
【计算机视觉】基于YOLO11-P6的保龄球检测与识别系统
人工智能·计算机视觉
码农三叔12 分钟前
(8-3)传感器系统与信息获取:多传感器同步与传输
人工智能·机器人·人形机器人
人工小情绪20 分钟前
Clawbot (OpenClaw)简介
人工智能
2501_933329551 小时前
品牌公关AI化实践:Infoseek舆情系统技术架构解析
人工智能·自然语言处理
咋吃都不胖lyh1 小时前
CLIP 不是一个 “自主判断图像内容” 的图像分类模型,而是一个 “图文语义相似度匹配模型”—
人工智能·深度学习·机器学习
xiucai_cs1 小时前
AI RAG 本地知识库实战
人工智能·知识库·dify·rag·ollama
zhangfeng11331 小时前
大模型微调时 Firefly(流萤)和 LlamaFactory(LLaMA Factory)这两个工具/框架之间做出合适的选择
人工智能·llama
zhangyifang_0091 小时前
MCP——AI连接现实世界的“标准接口”
人工智能
LOnghas12112 小时前
电动汽车充电接口自动识别与定位_yolo13-C3k2-Converse_六种主流充电接口检测分类
人工智能·目标跟踪·分类
编码小哥2 小时前
OpenCV图像滤波技术详解:从均值滤波到双边滤波
人工智能·opencv·均值算法