大语言模型LLM应用篇

萧十一郎君2024-05-15 14:04

大模型席卷全球，彷佛得模型者得天下。对于IT行业来说，以后可能没有各种软件了，只有各种各样的智体（Agent）调用各种各样的API。在这种大势下，笔者也阅读了很多大模型相关的资料，和很多新手一样，开始脑子里都是一团乱麻，随着相关文章越读越多，再进行内容梳理，终于理清了一条清晰的脉络。笔者希望通过三篇文章总结（入门篇、原理篇和应用篇）将思路写下来，以便跟我一样的新手读者快速了解大模型的方方面面。在这里，笔者先强调一下，本系列文章的深度有限，只是个人对大模型知识脉络的梳理，同时也会借鉴一下同行的博客内容充实本文，文末将会注明参考来源。

本文着重介绍大语言模型本身的开发应用，而不是大模型在行业的应用，如果要了解在行业的应用，读者可以直接上字节跳动的Coze平台或者百度的千帆平台，上面已经有很多通过大模型实现的智能体Agent，也许有一款满足你的需求。

笔者认为大语言模型本身的开发应用可以分为三层：

模型基础研发

从0开始研发大模型或者基于现有开源模型打造自己的大模型，这种方式需要大量人才和资金，成本非常高。
模型定制优化

基于现有模型进行调整优化，打造满足自身需求的定制化大模型。该方式定制化程度比较高，成本投入相对较多。主要实现方式有三种：
- 模型训练（Training）
- 模型微调（FineTune）
- 提示词工程（Prompt Engneering）
模型应用开发

针对用户需求，基于大模型开发各种AI应用。该方式投入成本比较少，实现速度快。目前开发AI应用有两个途径：
- 基于大模型开发框架实现，该方式需要进行编码。常用框架有：LangChain、AutoGPT等；
- 基于AI开发平台实现，该方式无需编码。国内主要平台有：字节跳动Coze、百度的千帆平台。

笔者针对上述内容绘制了一张开发应用分层图，如下：

上图中每一个开发应用方向都值得我们深入研究，就看读者对哪个方向最感兴趣了。