GPT理论

1.GPT发展

  • Transformer是一个用作翻译任务的模型,谷歌出品。

  • GPT全称 lmproving Language Understanding by Generative Pre-Training,用预训练语言理解模型。OPENAI出品。

  • BERT全称Pre-training of Deep BidirectionalTransformers for Language Understanding,双向预训练语言理解模型。谷歌出品。GPT与BERT都是基于Transformer的模型结构。

  • BERT在学术界比GPT要火很多,BERT论文引用量是58.9K。GPTI.,2.3加起来的论文引用量是17.7K。(截至2023年2月10日)

  • GPTI,2,3本质没有区别,仅是模型参数的数量越来越多。

  • GPT3.5是GPT3在不同任务上微调之后的综合模型。

  • ChatGPT则是利用GPT系列模型封装的智能聊天Al应用。

2.GPT和BERT的区别

模型结构:

  • GPT是一种单向的 Transformer模型,只考虑一个词的左侧上下文。

  • BERT是一种双向的Transformer模型,同时处理一个词的左侧和右侧的上下文。

预训练任务:

  • GPT的预训练任务是Language Modeling,它更注重语言生成。(简单理解,就是文本生成,如写作,写歌词等)

  • BERT的预训练任务是Masked Language Modeling 和Next Sentence Prediction,它更注重语言理解和关系 推断。(简单理解,就是完型填空,与预测B句子是否在A句子后面这两个任务联合训练。)

应用领域:

  • GPT则更专注于语言生成,如文本生成、对话生成等。

  • BERT的应用领域更广泛,可以用于命名实体识别、问答系统、句子相似度等任务。

模型参数量对比

  • BERT-base就是故意做成GPT的大小从而与之比较,结果效果上完胜。

  • GPT2代开始将模型做大,BERT便不再与GPT竞争。

  1. GPT半开源,BERT全开源。这意味着,做产品时可以把BERT模型部署在自己的服务器上从而脱离其母公司,而GPT不可以。

  2. GPT目前有API可调用,BERT没有。这意味着对于普通程序员而言,基于GPT做产品的门槛远低于BERT

  3. GPT的微调不是真正的微调,而是few-shot。

3.微调和Few-Shot

微调

优势:训练效果与普通模型训练没有区别。预训练模型的存在相当于为此次训练做了大量的准备工作。

劣势:所需算力与数据量与普通模型训练没有区别。

Few-Shot

优势:训练省力,计算量小,不需要太多数据。

劣势:容易过拟合。很考验预训练模型的泛化能力。

相关推荐
阿里云大数据AI技术1 小时前
光轮智能 × 阿里云:共建 Physical AI 云上数据、评测与持续学习基础设施
人工智能·机器学习
机器之心1 小时前
实锤了:Claude Code偷查用户,时区、中国AI实验室全是关键词
人工智能·openai
网易云信1 小时前
Cursor点燃个人开发者,企业级AI为何频频受挫?Agent工厂从提效工具到AI员工的跃迁
人工智能·开源
网易云信1 小时前
解锁触手可及的温暖:网易智企 x Wander Puffs AI 云游泡芙
人工智能
转转技术团队1 小时前
从 PRD 到可验证代码:AI 需求开发闭环实践
人工智能
机器之心1 小时前
飞书让表格变成「AI同事」加入群聊,不打开表就能用表
人工智能·openai
Bigfish_coding2 小时前
前端转agent-【python】-15 AI Agent 可观测性入门:LangFuse 链路追踪、Token 监控与 LLM 质量评估
人工智能
我唔知啊2 小时前
我把 Claude Code 拆成了一间餐厅:从一句话到一次回复,中间到底发生了什么
人工智能
Harry技术2 小时前
02 · Codex 核心概念:代理、沙箱、审批和项目说明书
人工智能