生成式AI项目的生命周期

总结自视频(吴恩达大模型入门课):9_13_generative-ai-project-lifecycle_哔哩哔哩_bilibili

生成周期如下图,包含四部分:任务范围(Scope),选择大模型(Select),调整大模型,部署应用程序。

1. 任务范围(Scope)

同时多个任务。

还是限定在某个具体任务即可。

以此估计任务的难度和成本。

2. 选择大模型(Select)

选择现成的开源大模型,还是自己从零(pretrain)开始训练一个。

从0开始训练时,首先要根据不同的任务,选择不同的网络结构。

2.1 Encoder-only LLM

仅使用Transformer的编码器部分(如BERT、RoBERTa等),通过双向自注意力机制捕捉文本的全局上下文信息。其预训练阶段的核心任务是掩码语言模型(MLM),即随机掩盖输入文本中的部分token,让模型根据上下文预测被掩盖的token。

例如,输入句子"The cat [MASK] on the mat",模型需预测被掩盖的"sat"

Encoder-only模型无需生成序列 ,而是专注于理解输入内容,如分类或特征提取。

Encoder-only模型的训练分为预训练微调两个阶段:

预训练

  • 掩码语言模型(MLM) :随机掩盖15%的输入token(如替换为[MASK]、随机词或保留原词),模型预测被掩盖的原始词,以学习双向上下文表征

  • 辅助任务:如BERT的下一句预测(NSP),判断两个句子是否连续,增强句子间关系建模

  • 动态掩码:改进版本(如RoBERTa)采用动态掩码策略,每次训练时随机更换掩盖位置,提升鲁棒性

微调

  • 预训练模型通过少量标注数据适配下游任务,如添加分类层进行情感分析或问答。

  • 例如,使用[CLS]标记的聚合表示驱动分类任务,或提取实体识别任务的序列标注。

应用场景

Encoder-only模型适用于无需生成文本、侧重理解与分析的任务,典型场景包括:

  • 文本分类

    • 情感分析(判断句子情感倾向)。

    • 主题分类(如新闻归类为体育、科技等)。

  • 信息抽取

    • 命名实体识别(NER):识别文本中的人名、地点等实体。

    • 关系抽取:分析实体间的关联(如"苹果"公司与"乔布斯"的关系)。

2.2 Decoder-only LLM

仅使用Transformer的解码器部分(如GPT系列),也叫自回归模型(autoregressive model),因为它们在生成文本时是逐词进行的,每个词依赖于之前的词。

通过单向自注意力机制(仅关注当前词左侧的上下文)逐词生成文本。这和Encoder-only的双向上下文不同。需要明确两者的区别,比如BERT是Encoder-only,而GPT是Decoder-only的例子。

也叫因果语言模型(causal language model),因果指的是每个词只能关注前面的词,避免未来信息的泄露,这也是自回归的核心。

  • 与Encoder-only模型的区别

    • Decoder-only模型生成文本,擅长开放式任务(如对话、续写);

    • Encoder-only模型理解文本,擅长分类、信息抽取等分析任务。

训练方式,完整的句子,训练时挨个从句子开头开始输入到模型中,预测下一个token,遵循因果语言模型,逐词生成,每个词依赖于之前的词。

应用场景

  • Decoder-only模型适用于需要生成连贯文本或动态推理的任务,典型场景包括:

  • 文本生成

    • 创意写作(诗歌、故事生成)

    • 内容续写(如邮件自动补全、代码补全工具GitHub Copilot)

  • 对话系统

    • 开放域聊天机器人(如ChatGPT)

    • 任务导向对话(订票、客服问答)

2.3 Encoder-Decoder LLM

使用完整的Transformer结构

  • T5(Text-to-Text Transfer Transformer)

  • BART(Bidirectional and Auto-Regressive Transformer)

Encoder-Decoder模型的训练结合了双向编码自回归生成,其中T5将所有任务(分类、翻译、生成)统一为"文本到文本"格式。

2.3.1 训练方式

去噪自编码(Denoising Autoencoding)

  • 对输入文本进行破坏(如随机掩码、删除或打乱词序),编码器学习恢复原始文本,解码器生成完整输出。

  • 例如,BART通过多种噪声策略(文本填充、句子置换等)提升鲁棒性。

跨度预测(Span Prediction)

  • 如T5将输入文本中的连续片段替换为特殊标记,解码器需预测被掩盖的原始内容。

2.3.2 应用领域

翻译,文本总结,问答;

2.3.3 典型案例与模型演进

  • Transformer(2017)

    • 首个Encoder-Decoder架构的模型,为机器翻译设计,奠定后续模型基础。
  • BART(2019)

    • 结合双向编码(类似BERT)和自回归解码(类似GPT),在文本生成与理解任务中表现均衡。
  • T5(2020)

    • 提出"Text-to-Text"统一框架,将所有任务视为文本生成,简化训练流程。
  • PEGASUS(2020)

    • 专为摘要任务优化,通过选择重要句子作为预训练目标(GSG任务)。
  • FLAN-T5(2022)

    • 基于T5的指令微调版本,支持多任务泛化与零样本生成。

2.3.4 与Encoder-only/Decoder-only模型的对比

特性 Encoder-only (BERT) Decoder-only (GPT) Encoder-Decoder (T5)
核心能力 文本理解 文本生成 理解+生成
注意力机制 双向 单向(因果掩码) 编码器双向,解码器单向
典型任务 分类、NER 对话、续写 翻译、摘要
输入输出关系 单文本输入,固定输出 单文本输入,生成输出 双文本(输入→输出)
预训练任务 MLM、NSP 因果语言建模 去噪自编码、跨度预测

训练方式区别如下图。

3. 调整大模型

调整模型方法有:prompt engineering, Fine-tuning, Align with human feedback

3.1 提示词工程(prompt engineering)

  • 定义:通过设计或优化输入提示(prompt),引导模型生成更符合预期的输出。

  • 特点

    • 无需修改模型内部参数,只需调整输入。

    • 适用于预训练模型(如GPT系列),直接通过提示控制输出。

  • 应用场景

    • 让模型生成特定格式的文本(如代码、表格)。

    • 引导模型完成特定任务(如问答、翻译)。

  • 优点

    • 简单高效,适合快速实验。

    • 不需要额外训练数据或计算资源。

  • 缺点

    • 对复杂任务效果有限。

    • 提示设计需要经验和技巧。

3.2 微调**(Fine-tuning)**

  • 定义 :在预训练模型的基础上,使用特定任务的数据进一步训练,调整模型参数以适应新任务。

  • 特点

    • 需要任务相关的数据集。

    • 调整模型参数,使其更专注于特定任务。

  • 应用场景

    • 将通用语言模型(如GPT、BERT)适配到特定领域(如医疗、法律)。

    • 针对特定任务(如情感分析、文本分类)优化模型。

  • 优点

    • 效果通常优于提示工程。

    • 可以显著提升模型在特定任务上的性能。

  • 缺点

    • 需要大量标注数据和计算资源。

    • 训练过程复杂,可能出现过拟合。

3.3 基于人类反馈的对齐(Align with Human Feedback)

  • 定义 :通过人类反馈调整模型,使其输出更符合人类价值观或任务需求。

  • 特点

    • 使用人类标注的偏好数据(如选择更好的输出)。

    • 通常结合强化学习(如RLHF,基于人类反馈的强化学习)。

  • 应用场景

    • 让模型生成更安全、更符合伦理的输出。

    • 优化对话系统,使其更自然、有用。

  • 优点

    • 显著提升模型的实用性和安全性。

    • 使模型更符合人类期望。

  • 缺点

    • 需要大量人类标注数据,成本高。

    • 实现复杂,涉及强化学习等技术。

4. 部署应用程序

优化大模型,使其充分利用计算机资源。

相关推荐
ymchuangke8 分钟前
Pytorch简单概述
人工智能·pytorch·python
GitCode官方9 分钟前
GitCode 助力 python-office:开启 Python 自动化办公新生态
开发语言·人工智能·python·开源·自动化·运营·gitcode
arbboter28 分钟前
【AI深度学习基础】NumPy完全指南入门篇:核心功能与工程实践(含完整代码)
人工智能·深度学习·性能优化·数据分析·numpy·多维数组·科学计算
有Li35 分钟前
将空间信息融入深度学习参数估计中及其在扩散加权磁共振成像(MRI)体素内不相干运动模型中的应用|文献速递-医学影像人工智能进展
人工智能·深度学习
北京迅为40 分钟前
【北京迅为】iTOP-RK3568OpenHarmony系统南向驱动开发-第4章 UART基础知识
人工智能·嵌入式硬件·harmonyos·鸿蒙·rk3568
9命怪猫1 小时前
AI大模型-提示工程学习笔记22-元提示(meta-prompting)
人工智能·机器学习·ai·prompt
Elastic 中国社区官方博客1 小时前
重新审视 ChatGPT 和 Elasticsearch:第 2 部分 - UI 保持不变
大数据·数据库·人工智能·elasticsearch·搜索引擎·ai·全文检索
SuperMale-zxq1 小时前
用 AI 工具提升 UX/UI 设计效率:从研究到原型
人工智能·ui·ai作画·ai编程·ai写作
hurrycry_小亦2 小时前
《今日AI-人工智能-编程日报》整理于——头条新闻、豆包日报
人工智能
是十一月末2 小时前
Opencv之sift特征检测和FLANN 匹配器进行指纹特征匹配
人工智能·python·opencv·计算机视觉·特征检测