论文略读:Knowledge is a Region in Weight Space for Finetuned Language Models

EMNLP 2023

  • 神经网络研究长期以来主要聚焦于单个模型在单个数据集上的行为与特性 ,但对于不同模型之间的关系 ,我们知之甚少。

    • 本文试图弥补这一空白,探索模型之间在权重空间和损失函数景观中的联系
  • 研究发现:
    *

    权重空间中的聚集性
    • 在同一个数据集上微调的,架构相同的语言模型,在权重空间中形成紧密的聚类(tight cluster)

    • 对于来自同一任务但不同数据集 的微调模型,它们在权重空间中也形成一个相对较松散的聚类(looser cluster)

    • 换言之,模型的"几何位置"能够反映出它们的任务相似性和数据分布。

  • 性能区域的连通性

    • 所有在同一任务上表现良好的模型,集中分布在权重空间的某一特定区域

    • 更重要的是,该区域内任意位置的模型都具有较高性能

    • 即使这些模型未在某个特定任务上微调过,只要它们处于"好模型"之间的区域,也可能在该任务上表现良好。

  • 基于以上观察,作者设计了一种高效微调的起点选择策略

    • 不再直接使用预训练模型,而是从多个微调模型形成区域的中心点开始微调
相关推荐
catchadmin35 分钟前
PHP 快速集成 ChatGPT 用 AI 让你的应用更聪明
人工智能·后端·chatgpt·php
编程武士4 小时前
从50ms到30ms:YOLOv10部署中图像预处理的性能优化实践
人工智能·python·yolo·性能优化
max5006005 小时前
基于Meta Llama的二语习得学习者行为预测计算模型
人工智能·算法·机器学习·分类·数据挖掘·llama
谷咕咕5 小时前
windows下python3,LLaMA-Factory部署以及微调大模型,ollama运行对话,开放api,java,springboot项目调用
java·windows·语言模型·llama
月疯6 小时前
OPENCV摄像头读取视频
人工智能·opencv·音视频
极客天成ScaleFlash6 小时前
极客天成让统一存储从云原生‘进化’到 AI 原生: 不是版本升级,而是基因重组
人工智能·云原生
王哥儿聊AI6 小时前
Lynx:新一代个性化视频生成模型,单图即可生成视频,重新定义身份一致性与视觉质量
人工智能·算法·安全·机器学习·音视频·软件工程
_pinnacle_6 小时前
打开神经网络的黑箱(三) 卷积神经网络(CNN)的模型逻辑
人工智能·神经网络·cnn·黑箱·卷积网络
Ada's6 小时前
深度学习在自动驾驶上应用(二)
人工智能·深度学习·自动驾驶
张较瘦_7 小时前
[论文阅读] 人工智能 + 软件工程 | 从“人工扒日志”到“AI自动诊断”:LogCoT框架的3大核心创新
论文阅读·人工智能·软件工程