规模法则(Scaling Law)与参数效率的提高,

上一篇:《人工智能大语言模型起源篇(三),模型规模与参数效率》

规模法则与效率提高

如果你想了解更多关于提高变换器效率的各种技术,我推荐阅读2020年的《Efficient Transformers: A Survey》https://arxiv.org/abs/2009.06732论文,接着是2023年的《A Survey on Efficient Training of Transformers》https://arxiv.org/abs/2302.01107论文。

此外,下面是我发现特别有趣和值得阅读的几篇论文。

(10)FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness(2022),由Dao、Fu、Ermon、Rudra 和 Ré 合著,https://arxiv.org/abs/2205.14135

虽然大多数变换器论文没有专门讨论如何替代原始的缩放点积机制来实现自注意力,但FlashAttention是我最近看到最多被提到的一种机制。

来源:https://arxiv.org/abs/2205.14135

(11)Geiping 和 Goldstein 于2022年发表的《Cramming: Training a Language Model on a Single GPU in One Day》,https://arxiv.org/abs/2212.14034

在这篇论文中,研究人员用一块GPU训练了一个掩蔽语言模型/编码器风格的大型语言模型(这里是BERT),训练时间为24小时。做个对比,2018年原始的BERT论文是用16块TPU训练了四天。一个有趣的发现是,尽管小模型的吞吐量更高,但小模型的学习效率较低。因此,大模型并不需要更长的训练时间就能达到特定的预测性能阈值。

                                            来源: https://arxiv.org/abs/2212.14034
相关推荐
果冻人工智能13 天前
人类讨厌AI的缺点,其实自己也有,是时候反思了。
#人工智能·#ai代理·#ai应用·#ai员工·#cnn·#神经网络·#ai
果冻人工智能20 天前
您的公司需要小型语言模型
#人工智能·#ai代理·#ai应用·#ai员工·#cnn·#神经网络·#ai
果冻人工智能23 天前
主动式AI(代理式)与生成式AI的关键差异与影响
#人工智能·#ai代理·#ai应用·#ai员工·#cnn·#chatgpt·#神经网络·#ai
果冻人工智能24 天前
创建用于预测序列的人工智能模型,用Keras Tuner探索模型的超参数。
#人工智能·#ai代理·#ai应用·#ai员工·#cnn·#chatgpt·#神经网络·#ai
果冻人工智能25 天前
创建用于预测序列的人工智能模型,调整模型的超参数。
#人工智能·#ai代理·#ai应用·#ai员工·#cnn·#chatgpt·#神经网络·#ai
果冻人工智能1 个月前
创建用于预测序列的人工智能模型,评估模型的能力。
#人工智能·#ai代理·#ai应用·#ai员工·#cnn·#chatgpt·#神经网络·#ai
果冻人工智能1 个月前
为什么 Llama 3.3 70B 比 GPT-4o 和 Claude 3.5 Sonnet 更优秀
#人工智能·#ai代理·#ai应用·#ai员工·#cnn·#chatgpt·#神经网络·#ai
果冻人工智能1 个月前
创建用于预测序列的人工智能模型,训练模型。
#人工智能·#ai代理·#ai应用·#ai员工·#cnn·#chatgpt·#神经网络·#ai
果冻人工智能1 个月前
创建用于预测序列的人工智能模型,设计数据集。
#人工智能·#ai代理·#ai应用·#ai员工·#神经网络·#ai
果冻人工智能1 个月前
预测大师的秘籍:揭开时间序列的真相
#人工智能·#ai代理·#ai应用·#ai员工·#cnn·#chatgpt·#神经网络·#ai