Fine Tuning——Prompt-Learning && Delta Tuning

预训练大模型只能提供较好的初始化,面对纷繁复杂的NLP任务场景,需要进一步的微调训练。

T5
  • 110亿参数
  • 从训练"分类层"转为 训练 "encoder-decoder"
  • sequence to sequence 序列到序列的训练,输出token而不是分类
  • demonstration 例证
GPT3
  • 1750亿参数

    模型太大,单机根本无法微调

  • 没有任何参数被微调,通过prompt方式使用

  • Descriptions(Prompts) + Few-shot examples to generate tokens

    in-context leaning :大模型见过几个examples再输出

  • 优点

    更好的语言理解和语言生成效果

    更大的容积去学习新的知识

Fine tuning 的改变

以前的方法微调要改变全部模型的参数,在GPT3上是不现实的,在110b其实就很难了

每个任务对应一个100多亿的模型,100个任务就有100个模型,从存储角度来讲也不现实

高效的微调大模型 Effective Model Adaptation

从task 和 data的角度出发

prompt-learning

给模型加入一些额外的上下文 trigger出一些token

让输入数据变得更具体

从优化的角度出发

delta Tuning

用小参数去驱动大参数

相关推荐
szxinmai主板定制专家18 小时前
【NI测试方案】基于ARM+FPGA的整车仿真与电池标定
arm开发·人工智能·yolo·fpga开发
ygyqinghuan19 小时前
读懂目标检测
人工智能·目标检测·目标跟踪
华东数交19 小时前
企业与国有数据资产:入表全流程管理及资产化闭环理论解析
大数据·人工智能
newxtc21 小时前
【昆明市不动产登记中心-注册安全分析报告】
人工智能·安全
techdashen21 小时前
圆桌讨论:Coding Agent or AI IDE 的现状和未来发展
ide·人工智能
CV实验室1 天前
TIP 2025 | 哈工大&哈佛等提出 TripleMixer:攻克雨雪雾干扰的3D点云去噪网络!
人工智能·计算机视觉·3d·论文
余俊晖1 天前
一套针对金融领域多模态问答的自适应多层级RAG框架-VeritasFi
人工智能·金融·rag
码农阿树1 天前
视频解析转换耗时—OpenCV优化摸索路
人工智能·opencv·音视频
伏小白白白1 天前
【论文精度-2】求解车辆路径问题的神经组合优化算法:综合展望(Yubin Xiao,2025)
人工智能·算法·机器学习
应用市场1 天前
OpenCV编程入门:从零开始的计算机视觉之旅
人工智能·opencv·计算机视觉