Transformer和LLM前沿内容(3):LLM Post-Training

视频链接:bilibili

文章目录

      • [1. LLM Fine-Tuning](#1. LLM Fine-Tuning)
        • [1.1 Supervised Fine-Tuning (SFT)](#1.1 Supervised Fine-Tuning (SFT))
        • [1.2 Reinforcement Learning from Human Feedback (RLHF)(重点)](#1.2 Reinforcement Learning from Human Feedback (RLHF)(重点))
        • [1.3 Parameter Efficient Fine-Tuning (PEFT)(重点)](#1.3 Parameter Efficient Fine-Tuning (PEFT)(重点))
          • [1.3.1 BitFit](#1.3.1 BitFit)
          • [1.3.2 TinyTL: Lite Residual Learning](#1.3.2 TinyTL: Lite Residual Learning)
          • [1.3.3 Adapter](#1.3.3 Adapter)
      • [2. Multi-modal LLMs](#2. Multi-modal LLMs)
        • [2.1 Cross-Attention Based: Flamingo](#2.1 Cross-Attention Based: Flamingo)
        • [2.2 Visual Tokens as Input: PaLM-E, VILA](#2.2 Visual Tokens as Input: PaLM-E, VILA)
        • [2.3 Enabling Visual Outputs: VILA-U](#2.3 Enabling Visual Outputs: VILA-U)
      • [3. Prompt Engineering](#3. Prompt Engineering)
        • [3.1 In-Context Learning (ICL)](#3.1 In-Context Learning (ICL))
        • [3.2 Chain-of-Thought (CoT)](#3.2 Chain-of-Thought (CoT))
        • [3.3 Retrieval Augmented Generation (RAG)](#3.3 Retrieval Augmented Generation (RAG))

1. LLM Fine-Tuning

1.1 Supervised Fine-Tuning (SFT)



1.2 Reinforcement Learning from Human Feedback (RLHF)(重点)




1.3 Parameter Efficient Fine-Tuning (PEFT)(重点)
1.3.1 BitFit
1.3.2 TinyTL: Lite Residual Learning
1.3.3 Adapter




2. Multi-modal LLMs

2.1 Cross-Attention Based: Flamingo

2.2 Visual Tokens as Input: PaLM-E, VILA

2.3 Enabling Visual Outputs: VILA-U

3. Prompt Engineering

3.1 In-Context Learning (ICL)

3.2 Chain-of-Thought (CoT)

3.3 Retrieval Augmented Generation (RAG)
相关推荐
腾讯云开发者17 小时前
港科大郭毅可谈Agentic AI时代的核心命题:人机共生,人不可能退场
人工智能
常丛丛17 小时前
5.6 LangGraph-Edges理解-Agent图的道路系统
人工智能
雪隐18 小时前
个人电脑玩AI-08让5060 Ti给你打工——我拿 Unlimited-OCR扫了 600 页书,然后悟了
人工智能·后端
Coffeeee18 小时前
Prompt要花心思写,与 AI 对话的七个技巧
人工智能·aigc·ai编程
蝎子莱莱爱打怪18 小时前
Claude Code 官宣新升级:子智能体默认后台跑,你边聊它边干活
人工智能
武子康18 小时前
调查研究-206 DeepSeek DSpark 深度解析:大模型推理加速,正在从“模型能力”转向“系统工程”
人工智能·agent·deepseek
甲维斯19 小时前
最佳work模型sonnet5来了,直接就能用!
人工智能
IT_陈寒19 小时前
React hooks 闭包陷阱把我的状态吃掉了,原来问题出在这里
前端·人工智能·后端
冬奇Lab1 天前
Workflow 系列(03):状态管理——持久化、幂等性与版本绑定
人工智能·工作流引擎