LLM大语言模型一(概述篇)

1.引言

2022年底,ChatGPT的发布,引发了大语言模型的关注,场面非常爆炸性!但其实,距离大语言模型的诞生,已经过去了4年,早在2018年OpenAI就发布了第一个生成式预训练模型GPT-1,参数量1.17亿;同一年谷歌发布参数有3亿的BERT模型,标志着大模型时代的到来。这里,我们看出来,大模型的大,某种意义上表示着参数的规模,当然参数的规模,某种意义上表达了模型的能力。

在往前追溯,人工智能的发展已有将近70年的历史,直到今天此时此刻,让我们普通人觉得科技于生活如此之近,这是好事!一个技术,能影响普罗大众的日常生活,正是说明它的价值点到来以及成本降低到可接受的程度。就好比,芯片将计算边际成本降到了零,互联网将分发的边际成本降到零,那么大模型AIGC有望将创作的边际成本降到零 。AIGC的进一步发展,终于是让人工智能告别 "有多少人工,即有多少智能" 的时代。

国内大模型,集中在2023年由百度发布文心一言大模型开始,拉开了百模大战的序幕。随后阿里通义,华为盘古,讯飞星火,腾讯混元,字节豆包,百川,智谱,月之暗面及正在势头的DeepSeek,好一幅"群模乱舞"!

于此,作为一个技术人,我自己也在做一些Agent的事情,希望能从技术人的角度,结合日常生活化的方向,做一些关于这个方向的思考和分享,系列内容关注:LLM+Agent应用。与大家共同交流共勉!

2.什么是大语言模型

AI大模型指的是拥有亿级以上参数的深度学习模型,深度学习延申至机器学习。从应用场景角度去看,可以分类为通用大模型垂直大模型,垂直大模型可以进一步细分为行业大模型和垂直场景大模型。

怎么去区别看待通用大模型和垂直大模型?举个例子:

  • 通用大模型强调泛化和基础认知能力,像刚毕业或还在学校的大学生,什么都懂一点,但是不精;
  • 行业大模型强调行业数据和知识(know how),像毕业后在某个社会岗位上工作的你,别的不敢说,但是在本职岗位上你是专家;
  • 垂直场景大模型,强调在专业任务上的性能和精度,像在读研究生的你,专业知识和场景知识更深入

关于大模型,我们还需要知道它的基础能力域,包含:理解,数学,编码,生成,推理和多模态。

3.大语言模型发展史

大模型发展历程,可以追溯到人工智能起点时刻开始,时间线如下:

  • 1956年-2006年:技术萌芽期,深度学习和神经网络技术的发展,给AI大模型发展奠定基础
  • 2006年:技术发展期,自然语言处理技术,Transformer机构发展,给AI大模型预训练算法和架构奠定基础
  • 2018年:技术成熟期,OpenAI发布GPT-1模型,谷歌发布BERT模型,标志着AI大模型时代到来
  • 2022年:产业引爆期,OpenAI发布ChatGPT,标志着AI大模型普适性时代到来
  • 2023年:国内群模乱舞期,国内大模型元年,从百度发布文心一言开启
  • 2024年:产业化期,2024年从政产学研用全方位推进大模型产品化,商业化,产业化

4.大语言模型产业图谱

2023年中国AIGC产业图谱

2024年中国AIGC产业图谱

5.大语言模型的不足和发展趋势及挑战

5.1.大模型不足

当然,大模型不是万能的,至少在当下及很长的一段时间不能万能,这是从基因因素决定的:

  • 预训练的本质决定了大模型知识更新不及时,新旧知识分不清楚。比如你在和各大模型聊天的时候,它回答不了你关于新闻,热点事件的问题
  • 没有记忆能力,上下文窗口有限制。虽然各大模型都在扩大聊天上下文窗口大小,但终归有个限度
  • 外部交互能力不足,难以和外部系统灵活交互
  • 面对特定领域的问题,不能保障给到你可靠的答案,有时候难免一本正经的胡说八道(大模型存在事实幻觉)

关于以上不足,会逐步有相关解决方案,后续到分享Agent内容的时候,我们详细来看。

5.2.发展趋势

2025年大模型发展的一些趋势向产品化,商业化,产业化迈进,向降本增效提质迈进。主要有几个因素,从去年开始关注各大模型上游玩家的模型服务,和相关LLMOps平台,以及具体的AI应用平台发现:

  • 大模型的能力精度和性能更强大了,都在向着深度推理方向迈进,毕竟你看到了,模型的参数规模指数级增加,比如GPT系列从最开始亿级参数,到千亿级参数,再到GPT-4 1.8万亿参数。当然能力强悍的背后是钱,据说GPT-4的训练成本高达7800万美元
  • 随着应用场景深入和成本考虑,各大模型朝着多模态方向迈进。从应用的角度出发,未来一个应用需要将文本+图片+语音+视频融合形成综合应用,那么从降低应用研发复杂度和成本考虑,都需要大模型支持多模态。你总不能让我一个应用,不同的能力模块接入不用的大模型吧?当然,不是不行,就是太复杂了
  • 大模型应用端的成本在降低,有利于更快推进产业化发展。到去年底,国内各大AI大模型综合价格普遍降到了0.5元/百万tokens。这是好事!
  • 应用端智能体Agent,向着超级智能体迈进,能更自主处理更复杂任务。将会有更多产品和服务与AI相结合,和更多新的好玩的AI应用出现
  • 组织端,会要求全员具备AI素养,AI能力将成为组织成员必备基础能力;同时IT基础架构升级,要能支持AI化

5.3.发展挑战

大模型发展的挑战,从上游厂家来看,是成本和基础设施能力的建设。就大模型训练成本来说,不是普通玩家能玩得转的。比如GPT-4训练成本7800万美元,训练时长90-100天;最近火爆的DeepSeek号称做到了极致的性价比,训练成本600万美元,训练时长2-3个月。这些都不是普通玩家能玩的。

从不同的维度来看相关挑战:

  • 应用端:

    行业konw-how,投入产出,成本压力,专业人才,行业精准度,如何匹配生产级的需求?真正带来生产率的提高?做到普适性

  • 技术端:

    算力成本怎么控?算法优化怎么提升?数据质量如何保障?

  • 产业端:

    价值观和伦理道德,怎么保障大模型根正苗红?公正透明可解释?

    安全和隐私,涉及到相关的数据和隐私怎么办?如何在更好的服务之间平衡安全和隐私?

    现有组织结构下的经济和社会冲击,会不会带来更多经济和社会面问题?比如失业和恐慌

相关推荐
TGITCIC几秒前
解码未来:大语言模型训练与推理的双螺旋进化之路
人工智能·语言模型·自然语言处理·大模型训练·大模型推理·推理训练
SHIPKING3932 分钟前
【LangChain核心组件】Memory:让大语言模型拥有持续对话记忆的工程实践
数据库·python·langchain·llm·memory
罗政6 分钟前
AI工具箱源码+成品网站源码+springboot+vue
vue.js·人工智能·spring boot
_一条咸鱼_18 分钟前
探秘神经网络激活函数
人工智能·深度学习·面试
星鹿XINGLOO21 分钟前
ChatGPT语音功能在iPad上支持吗?全面解答!
人工智能·安全·ios·ai·chatgpt·语音识别·ipad
娃娃略25 分钟前
【AI模型学习】Moco(下)——巧妙的队列设计
人工智能·python·神经网络·学习·算法·机器学习
jndingxin31 分钟前
OpenCV 图形API(37)图像滤波-----分离过滤器函数sepFilter()
人工智能·opencv·计算机视觉
好看资源平台44 分钟前
神经光子渲染:物理级真实感图像生成——从麦克斯韦方程到深度学习
人工智能·深度学习
diu_lei1 小时前
DeepSpeed ZeRO++:降低4倍网络通信,显著提高大模型及类ChatGPT模型训练效率
人工智能
meisongqing1 小时前
【大模型】GPT-4、DeepSeek应用与Prompt使用技巧
人工智能·大模型·prompt