LLM大语言模型一(概述篇)

1.引言

2022年底,ChatGPT的发布,引发了大语言模型的关注,场面非常爆炸性!但其实,距离大语言模型的诞生,已经过去了4年,早在2018年OpenAI就发布了第一个生成式预训练模型GPT-1,参数量1.17亿;同一年谷歌发布参数有3亿的BERT模型,标志着大模型时代的到来。这里,我们看出来,大模型的大,某种意义上表示着参数的规模,当然参数的规模,某种意义上表达了模型的能力。

在往前追溯,人工智能的发展已有将近70年的历史,直到今天此时此刻,让我们普通人觉得科技于生活如此之近,这是好事!一个技术,能影响普罗大众的日常生活,正是说明它的价值点到来以及成本降低到可接受的程度。就好比,芯片将计算边际成本降到了零,互联网将分发的边际成本降到零,那么大模型AIGC有望将创作的边际成本降到零 。AIGC的进一步发展,终于是让人工智能告别 "有多少人工,即有多少智能" 的时代。

国内大模型,集中在2023年由百度发布文心一言大模型开始,拉开了百模大战的序幕。随后阿里通义,华为盘古,讯飞星火,腾讯混元,字节豆包,百川,智谱,月之暗面及正在势头的DeepSeek,好一幅"群模乱舞"!

于此,作为一个技术人,我自己也在做一些Agent的事情,希望能从技术人的角度,结合日常生活化的方向,做一些关于这个方向的思考和分享,系列内容关注:LLM+Agent应用。与大家共同交流共勉!

2.什么是大语言模型

AI大模型指的是拥有亿级以上参数的深度学习模型,深度学习延申至机器学习。从应用场景角度去看,可以分类为通用大模型垂直大模型,垂直大模型可以进一步细分为行业大模型和垂直场景大模型。

怎么去区别看待通用大模型和垂直大模型?举个例子:

  • 通用大模型强调泛化和基础认知能力,像刚毕业或还在学校的大学生,什么都懂一点,但是不精;
  • 行业大模型强调行业数据和知识(know how),像毕业后在某个社会岗位上工作的你,别的不敢说,但是在本职岗位上你是专家;
  • 垂直场景大模型,强调在专业任务上的性能和精度,像在读研究生的你,专业知识和场景知识更深入

关于大模型,我们还需要知道它的基础能力域,包含:理解,数学,编码,生成,推理和多模态。

3.大语言模型发展史

大模型发展历程,可以追溯到人工智能起点时刻开始,时间线如下:

  • 1956年-2006年:技术萌芽期,深度学习和神经网络技术的发展,给AI大模型发展奠定基础
  • 2006年:技术发展期,自然语言处理技术,Transformer机构发展,给AI大模型预训练算法和架构奠定基础
  • 2018年:技术成熟期,OpenAI发布GPT-1模型,谷歌发布BERT模型,标志着AI大模型时代到来
  • 2022年:产业引爆期,OpenAI发布ChatGPT,标志着AI大模型普适性时代到来
  • 2023年:国内群模乱舞期,国内大模型元年,从百度发布文心一言开启
  • 2024年:产业化期,2024年从政产学研用全方位推进大模型产品化,商业化,产业化

4.大语言模型产业图谱

2023年中国AIGC产业图谱

2024年中国AIGC产业图谱

5.大语言模型的不足和发展趋势及挑战

5.1.大模型不足

当然,大模型不是万能的,至少在当下及很长的一段时间不能万能,这是从基因因素决定的:

  • 预训练的本质决定了大模型知识更新不及时,新旧知识分不清楚。比如你在和各大模型聊天的时候,它回答不了你关于新闻,热点事件的问题
  • 没有记忆能力,上下文窗口有限制。虽然各大模型都在扩大聊天上下文窗口大小,但终归有个限度
  • 外部交互能力不足,难以和外部系统灵活交互
  • 面对特定领域的问题,不能保障给到你可靠的答案,有时候难免一本正经的胡说八道(大模型存在事实幻觉)

关于以上不足,会逐步有相关解决方案,后续到分享Agent内容的时候,我们详细来看。

5.2.发展趋势

2025年大模型发展的一些趋势向产品化,商业化,产业化迈进,向降本增效提质迈进。主要有几个因素,从去年开始关注各大模型上游玩家的模型服务,和相关LLMOps平台,以及具体的AI应用平台发现:

  • 大模型的能力精度和性能更强大了,都在向着深度推理方向迈进,毕竟你看到了,模型的参数规模指数级增加,比如GPT系列从最开始亿级参数,到千亿级参数,再到GPT-4 1.8万亿参数。当然能力强悍的背后是钱,据说GPT-4的训练成本高达7800万美元
  • 随着应用场景深入和成本考虑,各大模型朝着多模态方向迈进。从应用的角度出发,未来一个应用需要将文本+图片+语音+视频融合形成综合应用,那么从降低应用研发复杂度和成本考虑,都需要大模型支持多模态。你总不能让我一个应用,不同的能力模块接入不用的大模型吧?当然,不是不行,就是太复杂了
  • 大模型应用端的成本在降低,有利于更快推进产业化发展。到去年底,国内各大AI大模型综合价格普遍降到了0.5元/百万tokens。这是好事!
  • 应用端智能体Agent,向着超级智能体迈进,能更自主处理更复杂任务。将会有更多产品和服务与AI相结合,和更多新的好玩的AI应用出现
  • 组织端,会要求全员具备AI素养,AI能力将成为组织成员必备基础能力;同时IT基础架构升级,要能支持AI化

5.3.发展挑战

大模型发展的挑战,从上游厂家来看,是成本和基础设施能力的建设。就大模型训练成本来说,不是普通玩家能玩得转的。比如GPT-4训练成本7800万美元,训练时长90-100天;最近火爆的DeepSeek号称做到了极致的性价比,训练成本600万美元,训练时长2-3个月。这些都不是普通玩家能玩的。

从不同的维度来看相关挑战:

  • 应用端:

    行业konw-how,投入产出,成本压力,专业人才,行业精准度,如何匹配生产级的需求?真正带来生产率的提高?做到普适性

  • 技术端:

    算力成本怎么控?算法优化怎么提升?数据质量如何保障?

  • 产业端:

    价值观和伦理道德,怎么保障大模型根正苗红?公正透明可解释?

    安全和隐私,涉及到相关的数据和隐私怎么办?如何在更好的服务之间平衡安全和隐私?

    现有组织结构下的经济和社会冲击,会不会带来更多经济和社会面问题?比如失业和恐慌

相关推荐
车载诊断技术3 小时前
人工智能AI在汽车设计领域的应用探索
数据库·人工智能·网络协议·架构·汽车·是诊断功能配置的核心
AuGuSt_814 小时前
【深度学习】Hopfield网络:模拟联想记忆
人工智能·深度学习
jndingxin4 小时前
OpenCV计算摄影学(6)高动态范围成像(HDR imaging)
人工智能·opencv·计算机视觉
Sol-itude4 小时前
【文献阅读】Collective Decision for Open Set Recognition
论文阅读·人工智能·机器学习·支持向量机
没事偷着乐琅5 小时前
人工智能 pytorch篇
人工智能·pytorch·python
邪恶的贝利亚5 小时前
Pytorch常用函数
人工智能·pytorch·python
Ironben5 小时前
看好 MCP,但用不了 Claude,所以做了一款 MCP 客户端
人工智能·claude·mcp
佛州小李哥5 小时前
构建逻辑思维链(CoT)为金融AI消除幻觉(保险赔付篇)
人工智能·科技·ai·金融·云计算·aws·亚马逊云科技
柒崽5 小时前
模型上下文协议 (MCP):AI 数据与工具连接的标准化方案
aigc·mcp
xilu05 小时前
MCP与RAG:增强大型语言模型的两种路径
人工智能·llm·mcp