Fine Tuning——Prompt-Learning && Delta Tuning

预训练大模型只能提供较好的初始化,面对纷繁复杂的NLP任务场景,需要进一步的微调训练。

T5
  • 110亿参数
  • 从训练"分类层"转为 训练 "encoder-decoder"
  • sequence to sequence 序列到序列的训练,输出token而不是分类
  • demonstration 例证
GPT3
  • 1750亿参数

    模型太大,单机根本无法微调

  • 没有任何参数被微调,通过prompt方式使用

  • Descriptions(Prompts) + Few-shot examples to generate tokens

    in-context leaning :大模型见过几个examples再输出

  • 优点

    更好的语言理解和语言生成效果

    更大的容积去学习新的知识

Fine tuning 的改变

以前的方法微调要改变全部模型的参数,在GPT3上是不现实的,在110b其实就很难了

每个任务对应一个100多亿的模型,100个任务就有100个模型,从存储角度来讲也不现实

高效的微调大模型 Effective Model Adaptation

从task 和 data的角度出发

prompt-learning

给模型加入一些额外的上下文 trigger出一些token

让输入数据变得更具体

从优化的角度出发

delta Tuning

用小参数去驱动大参数

相关推荐
iracole1 小时前
深度学习训练Camp:第R5周:天气预测
人工智能·python·深度学习
带电的小王2 小时前
【大模型基础_毛玉仁】1.5 语言模型的评测
人工智能·语言模型·自然语言处理·大语言模型基础·大模型基础_毛玉仁
梦丶晓羽3 小时前
自然语言处理:最大期望值算法
人工智能·python·自然语言处理·高斯混合模型·最大期望值算法
gis收藏家3 小时前
使用开放数据、ArcGIS 和 Sklearn 测量洛杉矶的城市相似性
人工智能·arcgis·sklearn
helpme流水4 小时前
【人工智能】Open WebUI+ollama+deepSeek-r1 本地部署大模型与知识库
人工智能·ubuntu·ai
Icomi_6 小时前
【神经网络】0.深度学习基础:解锁深度学习,重塑未来的智能新引擎
c语言·c++·人工智能·python·深度学习·神经网络
半问6 小时前
广告营销,会被AI重构吗?
人工智能·重构
movee6 小时前
一台低配云主机也能轻松愉快地玩RDMA
linux·人工智能·后端
张琪杭6 小时前
机器学习-随机森林解析
人工智能·随机森林·机器学习
訾博ZiBo7 小时前
AI日报 - 2025年3月11日
人工智能