1.引言
2022年底,ChatGPT的发布,引发了大语言模型的关注,场面非常爆炸性!但其实,距离大语言模型的诞生,已经过去了4年,早在2018年OpenAI就发布了第一个生成式预训练模型GPT-1,参数量1.17亿;同一年谷歌发布参数有3亿的BERT模型,标志着大模型时代的到来。这里,我们看出来,大模型的大,某种意义上表示着参数的规模,当然参数的规模,某种意义上表达了模型的能力。
在往前追溯,人工智能的发展已有将近70年的历史,直到今天此时此刻,让我们普通人觉得科技于生活如此之近,这是好事!一个技术,能影响普罗大众的日常生活,正是说明它的价值点到来以及成本降低到可接受的程度。就好比,芯片将计算边际成本降到了零,互联网将分发的边际成本降到零,那么大模型AIGC有望将创作的边际成本降到零 。AIGC的进一步发展,终于是让人工智能告别 "有多少人工,即有多少智能" 的时代。
国内大模型,集中在2023年由百度发布文心一言大模型开始,拉开了百模大战的序幕。随后阿里通义,华为盘古,讯飞星火,腾讯混元,字节豆包,百川,智谱,月之暗面及正在势头的DeepSeek,好一幅"群模乱舞"!
于此,作为一个技术人,我自己也在做一些Agent的事情,希望能从技术人的角度,结合日常生活化的方向,做一些关于这个方向的思考和分享,系列内容关注:LLM+Agent应用。与大家共同交流共勉!
2.什么是大语言模型
AI大模型指的是拥有亿级以上参数的深度学习模型,深度学习延申至机器学习。从应用场景角度去看,可以分类为通用大模型 和垂直大模型,垂直大模型可以进一步细分为行业大模型和垂直场景大模型。
怎么去区别看待通用大模型和垂直大模型?举个例子:
- 通用大模型强调泛化和基础认知能力,像刚毕业或还在学校的大学生,什么都懂一点,但是不精;
- 行业大模型强调行业数据和知识(know how),像毕业后在某个社会岗位上工作的你,别的不敢说,但是在本职岗位上你是专家;
- 垂直场景大模型,强调在专业任务上的性能和精度,像在读研究生的你,专业知识和场景知识更深入
关于大模型,我们还需要知道它的基础能力域,包含:理解,数学,编码,生成,推理和多模态。
3.大语言模型发展史
大模型发展历程,可以追溯到人工智能起点时刻开始,时间线如下:
- 1956年-2006年:技术萌芽期,深度学习和神经网络技术的发展,给AI大模型发展奠定基础
- 2006年:技术发展期,自然语言处理技术,Transformer机构发展,给AI大模型预训练算法和架构奠定基础
- 2018年:技术成熟期,OpenAI发布GPT-1模型,谷歌发布BERT模型,标志着AI大模型时代到来
- 2022年:产业引爆期,OpenAI发布ChatGPT,标志着AI大模型普适性时代到来
- 2023年:国内群模乱舞期,国内大模型元年,从百度发布文心一言开启
- 2024年:产业化期,2024年从政产学研用全方位推进大模型产品化,商业化,产业化
4.大语言模型产业图谱
2023年中国AIGC产业图谱:
2024年中国AIGC产业图谱:
5.大语言模型的不足和发展趋势及挑战
5.1.大模型不足
当然,大模型不是万能的,至少在当下及很长的一段时间不能万能,这是从基因因素决定的:
- 预训练的本质决定了大模型知识更新不及时,新旧知识分不清楚。比如你在和各大模型聊天的时候,它回答不了你关于新闻,热点事件的问题
- 没有记忆能力,上下文窗口有限制。虽然各大模型都在扩大聊天上下文窗口大小,但终归有个限度
- 外部交互能力不足,难以和外部系统灵活交互
- 面对特定领域的问题,不能保障给到你可靠的答案,有时候难免一本正经的胡说八道(大模型存在事实幻觉)
关于以上不足,会逐步有相关解决方案,后续到分享Agent内容的时候,我们详细来看。
5.2.发展趋势
2025年大模型发展的一些趋势向产品化,商业化,产业化迈进,向降本增效提质迈进。主要有几个因素,从去年开始关注各大模型上游玩家的模型服务,和相关LLMOps平台,以及具体的AI应用平台发现:
- 大模型的能力精度和性能更强大了,都在向着深度推理方向迈进,毕竟你看到了,模型的参数规模指数级增加,比如GPT系列从最开始亿级参数,到千亿级参数,再到GPT-4 1.8万亿参数。当然能力强悍的背后是钱,据说GPT-4的训练成本高达7800万美元
- 随着应用场景深入和成本考虑,各大模型朝着多模态方向迈进。从应用的角度出发,未来一个应用需要将文本+图片+语音+视频融合形成综合应用,那么从降低应用研发复杂度和成本考虑,都需要大模型支持多模态。你总不能让我一个应用,不同的能力模块接入不用的大模型吧?当然,不是不行,就是太复杂了
- 大模型应用端的成本在降低,有利于更快推进产业化发展。到去年底,国内各大AI大模型综合价格普遍降到了0.5元/百万tokens。这是好事!
- 应用端智能体Agent,向着超级智能体迈进,能更自主处理更复杂任务。将会有更多产品和服务与AI相结合,和更多新的好玩的AI应用出现
- 组织端,会要求全员具备AI素养,AI能力将成为组织成员必备基础能力;同时IT基础架构升级,要能支持AI化
5.3.发展挑战
大模型发展的挑战,从上游厂家来看,是成本和基础设施能力的建设。就大模型训练成本来说,不是普通玩家能玩得转的。比如GPT-4训练成本7800万美元,训练时长90-100天;最近火爆的DeepSeek号称做到了极致的性价比,训练成本600万美元,训练时长2-3个月。这些都不是普通玩家能玩的。
从不同的维度来看相关挑战:
-
应用端:
行业konw-how,投入产出,成本压力,专业人才,行业精准度,如何匹配生产级的需求?真正带来生产率的提高?做到普适性
-
技术端:
算力成本怎么控?算法优化怎么提升?数据质量如何保障?
-
产业端:
价值观和伦理道德,怎么保障大模型根正苗红?公正透明可解释?
安全和隐私,涉及到相关的数据和隐私怎么办?如何在更好的服务之间平衡安全和隐私?
现有组织结构下的经济和社会冲击,会不会带来更多经济和社会面问题?比如失业和恐慌