微软最新论文,ChatGPT的参数量只有20B(200亿)

背景

微软在上周四放出来一篇论文,CODEFUSION: A Pre-trained Diffusion Model for Code Generation。论文本身没什么说的,就是用预训练扩散模型做代码生成。但是真正令人注意的是这篇论文的实验部分。

作者在实验中与多种大模型进行了比较,其中就有ChatGPT3.5。这里作者给出了模型所对应的参数量,非常炸裂的是:

gpt3.5所对应的参数量只有20B!!!

真实性?

从论文本身来说,GPT-3是175B大小的模型,而比3效果要好的3.5却只有1/9的参数量,之前很多人都认为GPT-3.5的参数量应该在100B以上,但现在放出来的论文却说参数只有20B,可信性又如何?

众所周知的是,gpt-3.5-turbo是经过优化加速后的版本,和text-davinci-003相比,其接口调用价格为1/10,如果3.5的参数量只有20B,那么他的调用成本倒是符合这个价格。

从调用速度来说,3.5现今的调用速度要远快于去年原始版本的3.5,但是性能也有肉眼可见的下降,如果新的3.5大幅度消减了参数的话就也说的过去了。

潜在的技术路线?

那么为什么只需要20B的参数的3.5,在性能上就可以超过很多参数量比它大得多的开源大模型呢?由于openai并没没有真实公布过技术路线,因此这里只能进行猜想。

首先,常用的模型压缩技术就是稀疏、量化、蒸馏。但是单凭量化很难在保持性能的前提下把模型直接压缩10倍,因此,我推测3.5应该是以蒸馏为主,稀疏量化蒸馏都用上了。

当然,有人可能怀疑通过蒸馏能否让模型保证现在的水准。大概传统小模型的蒸馏和千亿级别的模型蒸馏到百亿级别的模型是两个概念,毕竟很多DL技术在模型规模超级加大的时候都出现了一些新的特性。

说明的东西

  1. 目前很多研究发现当模型规模固定住,只要持续增加训练数据量,模型效果就会直接增长,mistral 7B效果炸裂,归根结底是训练数据量达到了8个T,所以导致基础模型效果特别强。而openai的GPT3.5虽然只有20B,但是其训练数据定然是在起码2.5T以上的高质量数据。

  2. 模型参数的scale law可能会需要改变,狂堆参数不一定能够单调有效,高质量的训练集数据的重要性越来越大。

  3. Llama 2,23B模型,2个4090,每张卡只用18g的容量即可进行训练推理,这样的话,gpt-3.5-turbo让我们看到了边缘计算和端侧运行的希望,完全有可能在手机或者头显上部署一个3.5级别水平的AI主力。大模型的应用场景显然会变得更加丰富。只是不知道目前的蒸馏和缩小有没有理论极限,是否会出现小于某个量级后,基础能力明显下降的情况。

欢迎各位在评论区批评讨论~

相关推荐
技术无疆34 分钟前
【Python】Streamlit:为数据科学与机器学习打造的简易应用框架
开发语言·人工智能·python·深度学习·神经网络·机器学习·数据挖掘
xuehaishijue42 分钟前
红外画面空中目标检测系统源码分享
人工智能·目标检测·计算机视觉
羊小猪~~43 分钟前
机器学习/数据分析--用通俗语言讲解时间序列自回归(AR)模型,并用其预测天气,拟合度98%+
人工智能·python·机器学习·数据挖掘·数据分析·回归·时序数据库
浊酒南街1 小时前
吴恩达深度学习笔记:卷积神经网络(Foundations of Convolutional Neural Networks)2.7-2.8
人工智能·深度学习·神经网络
DuoRuaiMiFa1 小时前
ChatGPT全新功能Canvas上线:开启智能编程与写作新篇章
人工智能·chatgpt
DisonTangor1 小时前
Windows 11将新增基于AI的搜索、生成式填充和其它AI功能
人工智能
soso19682 小时前
【AI自然语言处理应用】通过API调用通义晓蜜CCAI-对话分析AIO应用
人工智能·自然语言·ccai
网安-搬运工2 小时前
RAG再总结之如何使大模型更好使用外部数据:四个不同层级及查询-文档对齐策略
人工智能·自然语言处理·大模型·llm·大语言模型·ai大模型·rag
大模型八哥2 小时前
大模型扫盲系列——大模型实用技术介绍(上)
人工智能·程序人生·ai·大模型·llm·llama·ai大模型