GPT-3: Language Models are Few-Shot Learners

GPT-3

数据集

  • CommonCrawl:文章通过高质量参考语料库对CommonCrawl数据集进行了过滤,并通过模糊去重对文档进行去重,且增加了高质量参考语料库以增加文本的多样性。
  • WebText:文章采用了类似GPT-2中的WebText文档收集清洗方法获得了更大范围的网页数据。
  • Books Corpora:此外文章增加了两个来自网络的书籍语料库。
  • Wiki:增加了英语百科语料库。

方法

  • 模型架构基本延续GPT-2的基于Transformer的网络架构。相比于GPT-2做了如下改变:

    • GPT-3采用了96层的多头transformer,头的个数为 96
    • 词向量的长度是12888
    • 上下文划窗的窗口大小提升至 2048个token
    • 在此基础上增加了Sparse-Transformer,即每次计算注意力的时候并不计算当前词与句子中所有词的注意力,而是通过Sparse Matrix仅仅计算当前词与句子中其它部分单词的注意力
  • In-context Learning

    • 关键思想是从类比中学习,首先,ICL 需要一些示例来形成一个演示上下文。这些示例通常是用自然语言模板编写的。然后 ICL 将查询的问题(即你需要预测标签的 input)和一个上下文演示(一些相关的 cases)连接在一起,形成带有提示的输入,并将其输入到语言模型中进行预测。 值得注意的是,与需要使用反向梯度更新模型参数的训练阶段的监督学习不同,ICL 不需要参数更新,并直接对预先训练好的语言模型进行预测。
引用
相关推荐
用户51914958484533 分钟前
HP Sound Research SECOMNService 权限提升漏洞利用工具
人工智能·aigc
用户0183493016938 分钟前
给 AI 智能体能力包一层 BFF,前端只调一个接口
人工智能
newbe365244 小时前
对接 Reasonix 1.x 跑通 DeepSeek V4:ACP 模型选择器接入实战
gpt·claude·chatglm (智谱)
这token有力气4 小时前
Function Calling 格式漂移
人工智能
onething3654 小时前
Spring Boot + Spring AI 从入门到实战:7天转型计划 Day 5 —— SSE 流式输出 + 打字机效果
人工智能·后端·全栈
onething3655 小时前
Spring Boot + Spring AI 从入门到实战:7天转型计划 Day 6 —— 业务完善 + 会话消息预览
人工智能·后端·全栈
IT_陈寒5 小时前
SpringBoot自动配置的坑,我爬了三天才出来
前端·人工智能·后端
甲维斯7 小时前
笑抽了!DeepSeek识图,豆包完胜了!
人工智能·deepseek
Lei活在当下15 小时前
【AI手记系列-2026/6/18】iSparto & Harness,Caveman 以及AI时代的生存指南
人工智能·llm·openai
冬奇Lab16 小时前
每日一个开源项目(第134篇):Zvec - 阿里开源的嵌入式向量数据库,向量搜索界的 SQLite
数据库·人工智能·llm