LLM大语言模型一(概述篇)

1.引言

2022年底,ChatGPT的发布,引发了大语言模型的关注,场面非常爆炸性!但其实,距离大语言模型的诞生,已经过去了4年,早在2018年OpenAI就发布了第一个生成式预训练模型GPT-1,参数量1.17亿;同一年谷歌发布参数有3亿的BERT模型,标志着大模型时代的到来。这里,我们看出来,大模型的大,某种意义上表示着参数的规模,当然参数的规模,某种意义上表达了模型的能力。

在往前追溯,人工智能的发展已有将近70年的历史,直到今天此时此刻,让我们普通人觉得科技于生活如此之近,这是好事!一个技术,能影响普罗大众的日常生活,正是说明它的价值点到来以及成本降低到可接受的程度。就好比,芯片将计算边际成本降到了零,互联网将分发的边际成本降到零,那么大模型AIGC有望将创作的边际成本降到零 。AIGC的进一步发展,终于是让人工智能告别 "有多少人工,即有多少智能" 的时代。

国内大模型,集中在2023年由百度发布文心一言大模型开始,拉开了百模大战的序幕。随后阿里通义,华为盘古,讯飞星火,腾讯混元,字节豆包,百川,智谱,月之暗面及正在势头的DeepSeek,好一幅"群模乱舞"!

于此,作为一个技术人,我自己也在做一些Agent的事情,希望能从技术人的角度,结合日常生活化的方向,做一些关于这个方向的思考和分享,系列内容关注:LLM+Agent应用。与大家共同交流共勉!

2.什么是大语言模型

AI大模型指的是拥有亿级以上参数的深度学习模型,深度学习延申至机器学习。从应用场景角度去看,可以分类为通用大模型垂直大模型,垂直大模型可以进一步细分为行业大模型和垂直场景大模型。

怎么去区别看待通用大模型和垂直大模型?举个例子:

  • 通用大模型强调泛化和基础认知能力,像刚毕业或还在学校的大学生,什么都懂一点,但是不精;
  • 行业大模型强调行业数据和知识(know how),像毕业后在某个社会岗位上工作的你,别的不敢说,但是在本职岗位上你是专家;
  • 垂直场景大模型,强调在专业任务上的性能和精度,像在读研究生的你,专业知识和场景知识更深入

关于大模型,我们还需要知道它的基础能力域,包含:理解,数学,编码,生成,推理和多模态。

3.大语言模型发展史

大模型发展历程,可以追溯到人工智能起点时刻开始,时间线如下:

  • 1956年-2006年:技术萌芽期,深度学习和神经网络技术的发展,给AI大模型发展奠定基础
  • 2006年:技术发展期,自然语言处理技术,Transformer机构发展,给AI大模型预训练算法和架构奠定基础
  • 2018年:技术成熟期,OpenAI发布GPT-1模型,谷歌发布BERT模型,标志着AI大模型时代到来
  • 2022年:产业引爆期,OpenAI发布ChatGPT,标志着AI大模型普适性时代到来
  • 2023年:国内群模乱舞期,国内大模型元年,从百度发布文心一言开启
  • 2024年:产业化期,2024年从政产学研用全方位推进大模型产品化,商业化,产业化

4.大语言模型产业图谱

2023年中国AIGC产业图谱

2024年中国AIGC产业图谱

5.大语言模型的不足和发展趋势及挑战

5.1.大模型不足

当然,大模型不是万能的,至少在当下及很长的一段时间不能万能,这是从基因因素决定的:

  • 预训练的本质决定了大模型知识更新不及时,新旧知识分不清楚。比如你在和各大模型聊天的时候,它回答不了你关于新闻,热点事件的问题
  • 没有记忆能力,上下文窗口有限制。虽然各大模型都在扩大聊天上下文窗口大小,但终归有个限度
  • 外部交互能力不足,难以和外部系统灵活交互
  • 面对特定领域的问题,不能保障给到你可靠的答案,有时候难免一本正经的胡说八道(大模型存在事实幻觉)

关于以上不足,会逐步有相关解决方案,后续到分享Agent内容的时候,我们详细来看。

5.2.发展趋势

2025年大模型发展的一些趋势向产品化,商业化,产业化迈进,向降本增效提质迈进。主要有几个因素,从去年开始关注各大模型上游玩家的模型服务,和相关LLMOps平台,以及具体的AI应用平台发现:

  • 大模型的能力精度和性能更强大了,都在向着深度推理方向迈进,毕竟你看到了,模型的参数规模指数级增加,比如GPT系列从最开始亿级参数,到千亿级参数,再到GPT-4 1.8万亿参数。当然能力强悍的背后是钱,据说GPT-4的训练成本高达7800万美元
  • 随着应用场景深入和成本考虑,各大模型朝着多模态方向迈进。从应用的角度出发,未来一个应用需要将文本+图片+语音+视频融合形成综合应用,那么从降低应用研发复杂度和成本考虑,都需要大模型支持多模态。你总不能让我一个应用,不同的能力模块接入不用的大模型吧?当然,不是不行,就是太复杂了
  • 大模型应用端的成本在降低,有利于更快推进产业化发展。到去年底,国内各大AI大模型综合价格普遍降到了0.5元/百万tokens。这是好事!
  • 应用端智能体Agent,向着超级智能体迈进,能更自主处理更复杂任务。将会有更多产品和服务与AI相结合,和更多新的好玩的AI应用出现
  • 组织端,会要求全员具备AI素养,AI能力将成为组织成员必备基础能力;同时IT基础架构升级,要能支持AI化

5.3.发展挑战

大模型发展的挑战,从上游厂家来看,是成本和基础设施能力的建设。就大模型训练成本来说,不是普通玩家能玩得转的。比如GPT-4训练成本7800万美元,训练时长90-100天;最近火爆的DeepSeek号称做到了极致的性价比,训练成本600万美元,训练时长2-3个月。这些都不是普通玩家能玩的。

从不同的维度来看相关挑战:

  • 应用端:

    行业konw-how,投入产出,成本压力,专业人才,行业精准度,如何匹配生产级的需求?真正带来生产率的提高?做到普适性

  • 技术端:

    算力成本怎么控?算法优化怎么提升?数据质量如何保障?

  • 产业端:

    价值观和伦理道德,怎么保障大模型根正苗红?公正透明可解释?

    安全和隐私,涉及到相关的数据和隐私怎么办?如何在更好的服务之间平衡安全和隐私?

    现有组织结构下的经济和社会冲击,会不会带来更多经济和社会面问题?比如失业和恐慌

相关推荐
TDengine (老段)2 小时前
从 ETL 到 Agentic AI:工业数据管理变革与 TDengine IDMP 的治理之道
数据库·数据仓库·人工智能·物联网·时序数据库·etl·tdengine
蓝桉8022 小时前
如何进行神经网络的模型训练(视频代码中的知识点记录)
人工智能·深度学习·神经网络
星期天要睡觉3 小时前
深度学习——数据增强(Data Augmentation)
人工智能·深度学习
南山二毛4 小时前
机器人控制器开发(导航算法——导航栈关联坐标系)
人工智能·架构·机器人
大数据张老师4 小时前
【案例】AI语音识别系统的标注分区策略
人工智能·系统架构·语音识别·架构设计·后端架构
xz2024102****4 小时前
吴恩达机器学习合集
人工智能·机器学习
anneCoder4 小时前
AI大模型应用研发工程师面试知识准备目录
人工智能·深度学习·机器学习
骑驴看星星a4 小时前
没有深度学习
人工智能·深度学习
youcans_4 小时前
【医学影像 AI】YoloCurvSeg:仅需标注一个带噪骨架即可实现血管状曲线结构分割
人工智能·yolo·计算机视觉·分割·医学影像
空白到白5 小时前
机器学习-决策树
人工智能·决策树·机器学习