人类语言处理nlp部分笔记——四、GPT3

参考自李宏毅课程-人类语言处理

四、GPT3

1. 介绍

GPT-3是一个language model,它的参数量相当巨大,是ELMO的2000倍。

2. GPT-3的野心

虽然GPT-3和BERT等模型一样,但是GPT-3是不需要针对特定的task做finetune的,也就是说GPT-3只需要预训练就够了。

具体来说,GPT-3定义了三种learning,第一个是"few-shot learning",就是先告诉模型要干什么,然后给几个例子,最后给模型一个题目让它做出来,第二个是"one-shot learning",就是告诉模型要干什么,然后给一个例子,最后给模型一个题目让它做出来;最后一个是"zero-shot learning",就是告诉模型要干什么,然后给模型一个题目让它做出来。这就相当于人一样了,这种learning被GPT-3的作者们称作"in-context learning"。

3. GPT-3的效果

在42个NLP任务上的平均准确率随参数量的变化如下图所示,可见随着参数量的增大,准确率是在一直上升的。

GPT-3在closed book QA上的表现如下所示,之前的QA都是给一个knowledge source,让模型从中找出答案,而所谓的closed book就是没有knowledge source的QA,就只给问题,看模型能不能够打上来。在175B参数量的情况下,用few-shot是可以超过SOTA的。

GPT-3在SuperGLUE的表现如下图所示,总结一下就是参数量越大,给的例子越多,模型的表现就越好。

GPT-3也可以用在生成任务上,下图是不同参数量下GPT-3生成的文章让人去辨别是不是机器生成时的准确率,当参数量最大时,人几乎已经无法辨别出时机器还是人写的了。

GPT-3也会做算术,如下图所示,问它"What is 17 minus 14?"这样的两位数的加减法基本都会回答正确,但是三位数及以上就不灵了。

当然,GPT-3也有不擅长的任务,比如NLI任务,GPT-3的结果就和随便猜的一样。NLI就是给两句话,让模型判断是矛盾,还是相近,还是中立。

相关推荐
aitoolhub20 小时前
在线设计技术实践:稿定设计核心架构与能力拆解
图像处理·人工智能·计算机视觉·自然语言处理·架构·视觉传达
半夏知半秋21 小时前
rust学习-循环
开发语言·笔记·后端·学习·rust
阿豪只会阿巴21 小时前
【多喝热水系列】从零开始的ROS2之旅——Day5
c++·笔记·python·ubuntu·ros2
WarPigs21 小时前
数据库笔记
数据库·笔记
BitaHub202421 小时前
文献分享 | Meta CLIP 2 来了:打破多语言瓶颈的全球化视觉-语言模型
人工智能·语言模型·自然语言处理
Hcoco_me21 小时前
大模型面试题43:从小白视角递进讲解大模型训练的梯度累加策略
人工智能·深度学习·学习·自然语言处理·transformer
clorisqqq21 小时前
人工智能现代方法 第一章绪论 笔记(2/2)
人工智能·笔记
菩提小狗21 小时前
小迪安全2023-2024|第11天:基础入门-ChatGPT篇&注册体验&结合安全&融入技术&高效赋能&拓_笔记|web安全|渗透测试|网络安全
笔记·安全·chatgpt
ouliten21 小时前
TensorRT笔记(6):INT8API的使用
笔记·cuda
狮子座明仔21 小时前
CiteFix: 通过后处理引用校正提升RAG系统准确率
人工智能·深度学习·ai·语言模型·自然语言处理