002大模型基础知识

hnbyboy2025-07-14 11:56

自回归模型

Autoregressive model ，AR

Decoder only

1.什么是自回归模型？

从左到右侧学习的模型，只能利用上下文的信息。

2.GPT模型的核心架构？

Transformer 的Decoder 模块（去除中间的第二个子层）

3.GPT的预训练任务？

无监督的预训练和有监督任务的微调

序列到序列模型

sequence to sequence Model

大模型微调的工作量大部分在：数据处理。

code is cheap show me your talk

提示词

怎么和大模型对话很重要，得到这些效果和代码

Prompt 提示词工程

RAG向量数据库： milvus

应用开发 RAG 知识库微调

基础设置推理优化国产模型适配，国产GPU适配

1.大模型基座模型开发
2.infra 基础设施，推理框架国产GPU适配
3.应用开发 RAG知识库智能体Agent

应用最多！！！

为什么现在的大模型都是 Decoder-only？

双向注意力和交叉注意力的区别？是Encoder - decoder 连接的时候是交叉注意力

LLM的主要架构类别？

Encoder-Only,Decoder-Only, Encoder--Decoder

Transformer
Encoder-only：
Bert为代表，chatgpt火起来之后，大多数NLP的工作都是围绕Bert展开的
双向注意力机制，存在低秩问题。
应用场景：完形填空，阅读理解等

Decoder Only：
GPT预测下一个词、生成任务

Encoder-Decoder：需要两套，训练起来比较麻烦

T5，全能选手， Test-to-text 范式

目前大模型都是Decoder-Only：
工程简洁，训练稳定
涌现，scaling law 足够大的Decoder-only自己能训练出深刻的理解能力

自编码模型的基本原理：

在输入中随机MASK掉一部分单词，根据上下文预测这个词

自回归模型的基本原理：

从左往右学习的模型，只能利用上下文或者下文的信息

序列到序列模型的基本原理：

同时使用编码器和解码器，它将每个task视为序列到序列的转换/生成

GPT-2

上下文：号称100万，但是也就几十万

主流的闭源模型 10 万以内没问题

GPT-2的核心思想是：

当模型的容量非常大且数据量足够丰富时，仅仅靠语言模型的学习便可以完成其他有监督学习的任务，不需要再下游任务微调。

GPT-2模型的特点：

GPT-2

zero-shot新范式

pre-train+fine tuning

模型架构调整 LN层前置，所有Decoder输出后再加一层LN

GPT-3模型

GPT-3

few shot，one-shot，举一个，几个例子，配合Prompt提示词 in context learning

sparse attention

上一篇：洛谷 P13014：[GESP202506 五级] 最大公因数

下一篇：树莓派5-ollama-linux-arm64.tgz 下载

热门推荐

01GitHub 镜像站点 02UV安装并设置国内源 03综合整理：pdf预览显示：你尝试预览的文件可能对你的计算机有害。如果你信任此文件以及其来源，请打开此文件以看其内容，如何解决以正常预览文件 04Linux下V2Ray安装配置指南 05BongoCat - 跨平台键盘猫动画工具 06安娜的档案(Anna’s Archive) 镜像网站/国内最新可访问入口（持续更新）07npm使用国内淘宝镜像的方法 08jdk21下载、安装（Windows、Linux、macOS）09《大数据技术原理与应用》实验报告三熟悉HBase常用操作 10PyCharm 社区版全平台安装指南