GPT-3: Language Models are Few-Shot Learners

GPT-3

数据集

  • CommonCrawl:文章通过高质量参考语料库对CommonCrawl数据集进行了过滤,并通过模糊去重对文档进行去重,且增加了高质量参考语料库以增加文本的多样性。
  • WebText:文章采用了类似GPT-2中的WebText文档收集清洗方法获得了更大范围的网页数据。
  • Books Corpora:此外文章增加了两个来自网络的书籍语料库。
  • Wiki:增加了英语百科语料库。

方法

  • 模型架构基本延续GPT-2的基于Transformer的网络架构。相比于GPT-2做了如下改变:

    • GPT-3采用了96层的多头transformer,头的个数为 96
    • 词向量的长度是12888
    • 上下文划窗的窗口大小提升至 2048个token
    • 在此基础上增加了Sparse-Transformer,即每次计算注意力的时候并不计算当前词与句子中所有词的注意力,而是通过Sparse Matrix仅仅计算当前词与句子中其它部分单词的注意力
  • In-context Learning

    • 关键思想是从类比中学习,首先,ICL 需要一些示例来形成一个演示上下文。这些示例通常是用自然语言模板编写的。然后 ICL 将查询的问题(即你需要预测标签的 input)和一个上下文演示(一些相关的 cases)连接在一起,形成带有提示的输入,并将其输入到语言模型中进行预测。 值得注意的是,与需要使用反向梯度更新模型参数的训练阶段的监督学习不同,ICL 不需要参数更新,并直接对预先训练好的语言模型进行预测。
引用
相关推荐
学而要时习2 分钟前
Claude Code 深度测评:当 AI 遇到“豪纳森数”与“光谱分析”,它能扛得住吗?
人工智能
石去皿3 分钟前
Depth Viewer: 16-bit 深度图可视化工具
人工智能·chatgpt·prompt
cetcht88883 分钟前
变电站巡检机器人及智能辅助系统集成解决方案
人工智能·机器人
瑞璐塑业peek注塑6 分钟前
重塑机器人轻量化设计:PEEK精密注塑结构件壳体_高强度&耐磨损
人工智能·机器人
JavaEdge.7 分钟前
ClawBot(Moltbot)安装与上手:用一条命令在本地跑起个人 AI 助手(含 Dashboard/Chat)
人工智能
AI猫站长9 分钟前
快讯|灵心巧手旗下钢琴机器人将组建“机器人F4”登陆央视迎春
人工智能·机器人·具身智能·灵心巧手·央视
TMT星球14 分钟前
WPS 365推出“AI医药报告写作助手”,撰写效率提升超60%
人工智能·wps
人工智能AI技术14 分钟前
从零实现“AI版GTA”:用谷歌Genie 3搭建你的第一个可交互3D世界
人工智能
cool_switch14 分钟前
效率革新:深度体验一款面向开发者的“一站式”AI PPT生成方案
人工智能·powerpoint
双层吉士憨包15 分钟前
2026数据爬虫实战:如何高效采集Google地图数据的动态IP策略
大数据·网络·人工智能