大语言模型Large Language Model（LLM）

1.大模型的发展历程

2.算力需求

3.大模型api调用

1.大模型的发展历程

维基百科的介绍：https://en.wikipedia.org/wiki/Large_language_model

发展情况

大语言模型的模型参数量一般在数百亿或数千亿个参数，开源大模型主要有Facebook的LLaMA，阿里的通义千问，微软AI研究院Phi-3，谷歌的BERT（2018）等，

2.算力需求

模型参数和显存需求：

模型参数使用2字节或者4字节进行存储；

如果每个模型参数使用2个字节进行存储，

10亿的模型参数，占用显存2GB；

如果冻结预加载的大模型参数，10亿参数的大模型占用显存2GB；

如果微调大模型的参数，10亿参数的模型至少需要显存16G；

对于LLaMA系列开源模型，2023/06发布的LLaMA 2，有不同版本的预训练模型，参数量分别是70亿/130/700亿；2024/04发布的Llama 3，参数量分别是80亿/700亿.

对于个人调试大模型参数，做如下估计：

如果采用微调大模型参数这种方案，以LLaMA的70亿参数为例，需要显存112G，基本不可能实现；

如果采用冻结预加载的大模型参数方案，以LLaMA的70亿参数为例，至少需要显存14G，同时需要设计网络架构，类似LLaMA-Reg：

3.大模型api调用

曾一度（至今），kimi AI助手十分火爆，kimi可以接受多种类型的文件作为输入，并根据提示词输出文件分析结果。通义千问也有类似的功能。如果待处理的文件数量较少，如十几个或者几十个，直接交互式处理足够了，然而，如果待处理的文件数量，如几百几千几万，甚至几十万几百万几亿等，借助交互式的LLM模型调用的调用方式就在操作层面不再可行，可以借助大模型提供的api接口，编程实现大量文件的处理。目前，kimi和QWen模型都支持模型api的调用，并且调用方式很简单，基于python很容易就能实现。类似kimi/QWen，会提供一定量的免费调用api的额度，如果需要处理的文件数量很多，达到几千几万，需要购买tokens，具体见相关网站介绍。在使用大模型工具时，需要注意模型参数的调整，提示词的编辑，关注到一定程度上大模型输出的随机性，尽可能规避随机性对处理结果的影响，尽可能保证处理结果的准确性。