GPT-3: Language Models are Few-Shot Learners

GPT-3

数据集

  • CommonCrawl:文章通过高质量参考语料库对CommonCrawl数据集进行了过滤,并通过模糊去重对文档进行去重,且增加了高质量参考语料库以增加文本的多样性。
  • WebText:文章采用了类似GPT-2中的WebText文档收集清洗方法获得了更大范围的网页数据。
  • Books Corpora:此外文章增加了两个来自网络的书籍语料库。
  • Wiki:增加了英语百科语料库。

方法

  • 模型架构基本延续GPT-2的基于Transformer的网络架构。相比于GPT-2做了如下改变:

    • GPT-3采用了96层的多头transformer,头的个数为 96
    • 词向量的长度是12888
    • 上下文划窗的窗口大小提升至 2048个token
    • 在此基础上增加了Sparse-Transformer,即每次计算注意力的时候并不计算当前词与句子中所有词的注意力,而是通过Sparse Matrix仅仅计算当前词与句子中其它部分单词的注意力
  • In-context Learning

    • 关键思想是从类比中学习,首先,ICL 需要一些示例来形成一个演示上下文。这些示例通常是用自然语言模板编写的。然后 ICL 将查询的问题(即你需要预测标签的 input)和一个上下文演示(一些相关的 cases)连接在一起,形成带有提示的输入,并将其输入到语言模型中进行预测。 值得注意的是,与需要使用反向梯度更新模型参数的训练阶段的监督学习不同,ICL 不需要参数更新,并直接对预先训练好的语言模型进行预测。
引用
相关推荐
oil欧哟8 分钟前
🙂我用 TS 实现了一个 OpenAPI 转 MCP 工具,让 AI 工具调用更简单!
前端·人工智能·mcp
麦德泽特10 分钟前
超高速总线CDCTL01A 芯片在机器人领域的应用解析
人工智能·嵌入式硬件·物联网·机器人·信息与通信
你柚猫腻39 分钟前
机器学习实验报告4-Logistic 回归算法
人工智能·机器学习·回归
腾讯云开发者39 分钟前
未来十年文旅业会被AI颠覆吗?揭秘“云+AI”如何重构游客的江南体验
人工智能
MYH51643 分钟前
文本预测和分类任务
人工智能·机器学习·分类
Elastic 中国社区官方博客1 小时前
使用 Azure LLM Functions 与 Elasticsearch 构建更智能的查询体验
大数据·人工智能·elasticsearch·microsoft·搜索引擎·全文检索·azure
这是Jamon1 小时前
MetaGPT Actions基础框架之Action类解析
人工智能
麦兜*2 小时前
Spring Boot 集成国内AI,包含文心一言、通义千问和讯飞星火平台实战教程
java·人工智能·spring boot·后端·spring·ai·文心一言
这是Jamon2 小时前
MetaGPT Actions基础框架之ActionNode解析
人工智能
风靡晚2 小时前
用于汽车毫米波雷达的四维高分辨率点云图像
人工智能·算法·机器学习·计算机视觉·汽车·信息与通信·信号处理