002大模型基础知识

自回归模型

Autoregressive model ,AR

Decoder only






1.什么是自回归模型?

从左到右侧学习的模型,只能利用上下文的信息。

2.GPT模型的核心架构?

Transformer 的Decoder 模块(去除中间的第二个子层)

3.GPT的预训练任务?

无监督的预训练 和 有监督任务的微调

序列到序列模型

sequence to sequence Model




大模型微调的工作量大部分在: 数据处理。

code is cheap show me your talk

提示词

怎么和大模型对话很重要,得到这些效果和代码

Prompt 提示词工程

RAG向量数据库: milvus

应用开发 RAG 知识库 微调

基础设置 推理优化 国产模型适配 ,国产GPU适配

1.大模型 基座模型开发
2.infra 基础设施,推理框架 国产GPU适配
3.应用开发 RAG知识库 智能体Agent

应用最多!!!


为什么现在的大模型都是 Decoder-only?

双向注意力 和 交叉注意力 的区别? 是Encoder - decoder 连接的时候是交叉注意力

LLM的主要架构类别?

Encoder-Only,Decoder-Only, Encoder--Decoder

Transformer
Encoder-only:
Bert为代表,chatgpt火起来之后,大多数NLP的工作都是围绕Bert展开的
双向注意力机制, 存在低秩问题。
应用场景:完形填空,阅读理解等

Decoder Only:
GPT预测下一个词、生成任务

Encoder-Decoder:需要两套,训练起来比较麻烦

T5, 全能选手, Test-to-text 范式

目前大模型都是Decoder-Only:
工程简洁,训练稳定
涌现,scaling law 足够大的Decoder-only自己能训练出深刻的理解能力

自编码模型的基本原理:

在输入中随机MASK掉一部分单词,根据上下文预测这个词

自回归模型的基本原理:

从左往右学习的模型,只能利用上下文或者下文的信息

序列到序列模型的基本原理:

同时使用编码器和 解码器,它将每个task视为序列到序列的转换/生成


GPT-2


上下文:号称100万,但是也就几十万

主流的闭源模型 10 万 以内 没问题


GPT-2的核心思想是:

当模型的容量非常大且数据量足够丰富时,仅仅靠语言模型的学习便可以完成其他有监督学习的任务,不需要再下游任务微调。



GPT-2模型的特点:

GPT-2

zero-shot新范式

pre-train+fine tuning

模型架构调整 LN层前置,所有Decoder输出后再加一层LN

GPT-3模型



GPT-3

few shot,one-shot, 举一个,几个例子,配合Prompt提示词 in context learning

sparse attention

相关推荐
这里有鱼汤21 分钟前
80%新手炒股都在误用技术指标?一文揭秘正确分类与实战组合
后端·python
小磊哥er1 小时前
【办公自动化】学习使用Python库让视频剪辑自动化
python
chian-ocean6 小时前
Bright Data 代理 + MCP :解决 Google 搜索反爬的完整方案
人工智能·python
AndrewHZ10 小时前
【python与生活】如何用Python写一个简单的自动整理文件的脚本?
开发语言·python·生活·脚本·文件整理
binbinaijishu8810 小时前
Python爬虫入门指南:从零开始的网络数据获取之旅
开发语言·爬虫·python·其他
Python代狂魔11 小时前
Redis
数据库·redis·python·缓存
做科研的周师兄13 小时前
【机器学习入门】1.2 初识机器学习:从数据到智能的认知之旅
大数据·数据库·人工智能·python·机器学习·数据分析·机器人
王小王-12314 小时前
基于Python的游戏推荐与可视化系统的设计与实现
python·游戏·游戏推荐系统·游戏可视化
KevinWang_14 小时前
让 AI 写一个给图片加水印的 Python 脚本
python
go&Python15 小时前
检索模型与RAG
开发语言·python·llama