LLM大语言模型一（概述篇）

1.引言

2022年底，ChatGPT的发布，引发了大语言模型的关注，场面非常爆炸性！但其实，距离大语言模型的诞生，已经过去了4年，早在2018年OpenAI就发布了第一个生成式预训练模型GPT-1，参数量1.17亿；同一年谷歌发布参数有3亿的BERT模型，标志着大模型时代的到来。这里，我们看出来，大模型的大，某种意义上表示着参数的规模，当然参数的规模，某种意义上表达了模型的能力。

在往前追溯，人工智能的发展已有将近70年的历史，直到今天此时此刻，让我们普通人觉得科技于生活如此之近，这是好事！一个技术，能影响普罗大众的日常生活，正是说明它的价值点到来以及成本降低到可接受的程度。就好比，芯片将计算边际成本降到了零，互联网将分发的边际成本降到零，那么大模型AIGC有望将创作的边际成本降到零 。AIGC的进一步发展，终于是让人工智能告别 "有多少人工，即有多少智能" 的时代。

国内大模型，集中在2023年由百度发布文心一言大模型开始，拉开了百模大战的序幕。随后阿里通义，华为盘古，讯飞星火，腾讯混元，字节豆包，百川，智谱，月之暗面及正在势头的DeepSeek，好一幅"群模乱舞"！

于此，作为一个技术人，我自己也在做一些Agent的事情，希望能从技术人的角度，结合日常生活化的方向，做一些关于这个方向的思考和分享，系列内容关注：LLM+Agent应用。与大家共同交流共勉！

2.什么是大语言模型

AI大模型指的是拥有亿级以上参数的深度学习模型，深度学习延申至机器学习。从应用场景角度去看，可以分类为通用大模型 和垂直大模型，垂直大模型可以进一步细分为行业大模型和垂直场景大模型。

怎么去区别看待通用大模型和垂直大模型？举个例子：

通用大模型强调泛化和基础认知能力，像刚毕业或还在学校的大学生，什么都懂一点，但是不精；
行业大模型强调行业数据和知识（know how），像毕业后在某个社会岗位上工作的你，别的不敢说，但是在本职岗位上你是专家；
垂直场景大模型，强调在专业任务上的性能和精度，像在读研究生的你，专业知识和场景知识更深入

关于大模型，我们还需要知道它的基础能力域，包含：理解，数学，编码，生成，推理和多模态。

3.大语言模型发展史

大模型发展历程，可以追溯到人工智能起点时刻开始，时间线如下：

1956年-2006年：技术萌芽期，深度学习和神经网络技术的发展，给AI大模型发展奠定基础
2006年：技术发展期，自然语言处理技术，Transformer机构发展，给AI大模型预训练算法和架构奠定基础
2018年：技术成熟期，OpenAI发布GPT-1模型，谷歌发布BERT模型，标志着AI大模型时代到来
2022年：产业引爆期，OpenAI发布ChatGPT，标志着AI大模型普适性时代到来
2023年：国内群模乱舞期，国内大模型元年，从百度发布文心一言开启
2024年：产业化期，2024年从政产学研用全方位推进大模型产品化，商业化，产业化

4.大语言模型产业图谱

2023年中国AIGC产业图谱：

2024年中国AIGC产业图谱：

5.大语言模型的不足和发展趋势及挑战

5.1.大模型不足

当然，大模型不是万能的，至少在当下及很长的一段时间不能万能，这是从基因因素决定的：

预训练的本质决定了大模型知识更新不及时，新旧知识分不清楚。比如你在和各大模型聊天的时候，它回答不了你关于新闻，热点事件的问题
没有记忆能力，上下文窗口有限制。虽然各大模型都在扩大聊天上下文窗口大小，但终归有个限度
外部交互能力不足，难以和外部系统灵活交互
面对特定领域的问题，不能保障给到你可靠的答案，有时候难免一本正经的胡说八道（大模型存在事实幻觉）

关于以上不足，会逐步有相关解决方案，后续到分享Agent内容的时候，我们详细来看。

5.2.发展趋势

2025年大模型发展的一些趋势向产品化，商业化，产业化迈进，向降本增效提质迈进。主要有几个因素，从去年开始关注各大模型上游玩家的模型服务，和相关LLMOps平台，以及具体的AI应用平台发现：

大模型的能力精度和性能更强大了，都在向着深度推理方向迈进，毕竟你看到了，模型的参数规模指数级增加，比如GPT系列从最开始亿级参数，到千亿级参数，再到GPT-4 1.8万亿参数。当然能力强悍的背后是钱，据说GPT-4的训练成本高达7800万美元
随着应用场景深入和成本考虑，各大模型朝着多模态方向迈进。从应用的角度出发，未来一个应用需要将文本+图片+语音+视频融合形成综合应用，那么从降低应用研发复杂度和成本考虑，都需要大模型支持多模态。你总不能让我一个应用，不同的能力模块接入不用的大模型吧？当然，不是不行，就是太复杂了
大模型应用端的成本在降低，有利于更快推进产业化发展。到去年底，国内各大AI大模型综合价格普遍降到了0.5元/百万tokens。这是好事！
应用端智能体Agent，向着超级智能体迈进，能更自主处理更复杂任务。将会有更多产品和服务与AI相结合，和更多新的好玩的AI应用出现
组织端，会要求全员具备AI素养，AI能力将成为组织成员必备基础能力；同时IT基础架构升级，要能支持AI化

5.3.发展挑战

大模型发展的挑战，从上游厂家来看，是成本和基础设施能力的建设。就大模型训练成本来说，不是普通玩家能玩得转的。比如GPT-4训练成本7800万美元，训练时长90-100天；最近火爆的DeepSeek号称做到了极致的性价比，训练成本600万美元，训练时长2-3个月。这些都不是普通玩家能玩的。

从不同的维度来看相关挑战：

应用端：

行业konw-how，投入产出，成本压力，专业人才，行业精准度，如何匹配生产级的需求？真正带来生产率的提高？做到普适性
技术端：

算力成本怎么控？算法优化怎么提升？数据质量如何保障？
产业端：

价值观和伦理道德，怎么保障大模型根正苗红？公正透明可解释？

安全和隐私，涉及到相关的数据和隐私怎么办？如何在更好的服务之间平衡安全和隐私？

现有组织结构下的经济和社会冲击，会不会带来更多经济和社会面问题？比如失业和恐慌