GPT系列概述

十有久诚2024-01-04 12:26

OPENAI做的东西

Openai老窝在爱荷华州，微软投资的数据中心

万物皆可GPT下咱们要失业了？

但是世界不仅仅是GPT

GPT其实也只是冰山一角，2022年每4天就有一个大型模型问世

GPT历史时刻

GPT-1

带回到2018年的NLP

所有下游任务都需要微调（再训练）

GPT-2

以不变应万变，需要注意的 GPT-2中提示是不在训练中的

Temperature

温度的选择还是要根据实际情况来

温度越低，就希望以准确性为第一要务；

温度越高，就注重多样性选择，但准确性就降低了(对应GPT来说就有可能胡说八道了)

Top k与Top p

GPT-3

关键：让模型理解暗示的是什么东西

咱们面向百度编程，它面向人类编程

就是说GPT-3训练的数据包罗万象，上通天文下知地理

3种核心的下游任务方式

其实就是输入例子有几个，打个样

zero-shot

上面的回答我们是没有事先给出参考答案的。

one-shot

GPT回答是：打老板

few-shot

会给出多个例子

例1：

结果：

例2：

3种方式的对比

这三种方式都没有更新模型，相对来说肯定few的效果好一些；

但由于few-shot中模型是没有记住例子的能力的，所以每次提问的时候都需要给出这几个例子，但是问题就是API更贵了，输入序列长度更长了

网络结构

网络结构没啥特别的，就是transformer，但是3.2M的batch有点辣眼睛

CODEX

GPT有点像多领域都涉及，但都不是涉及得很深；而现在很多模型都聚焦于自己擅长的领域，比如说CODEX，用于代码生成。

这其实在告诉我们一件事，GPT可以个性化设置。

Evaluating Large Language Models Trained on Code

用GPT-3模型重新训练（注意不是微调，而是输入数据换成github上爬的数据，都是代码的数据）

我总说面向GITHUB编程，GPT-3这回真把这个事干了

训练数据就是GITHUB，相当于把文档注释和代码结合到一起

输入注释或者文档，来预测代码如何实现，即要面向github编程了

上一篇：Elasticsearch：如何使用 Elasticsearch 进行排序

下一篇：案例071:基于微信小程序的汽车预约维修系统

热门推荐

01GitHub 镜像站点 02如何新建文件夹？电脑新建文件夹的4种方法 032026年7月AI圈大地震：GPT-5.6被政府限制、Claude入驻Slack、Anthropic自研芯片 04国内可直接用、免费额度/永久免费的大模型API清单（含 SiliconFlow、火山、阿里、智谱、百度、Kimi、DeepSeek、DMXAPI 等）05幻兽帕鲁 - 服务器管理员权限与 GM 命令完全指南 06AI科技热点日报 | 2026年07月01日 07AI 编程 IDE 全景解析 2026：Agent 全面接管开发链路 082026 国产 AI 大模型横评：DeepSeek、通义千问、Kimi、文心一言、星火、豆包谁更能打？09微信历史版本含下载地址（ Windows PC | 安卓 | MAC ）及设置微信不更新 10【解构】DeepSeek V4 发布：技术报告深度解读 + 横向对比六大开源模型，我们的判断是……