三个月诞生79个基础大模型,企业选用大模型需要注意些什么?

自从ChatGPT横空出世,各类大模型层出不穷,竞争也日渐激烈,可谓"乱花渐欲迷人眼"。

随着大公司的入场,无疑给创业公司带来了降维打击,创业公司随时可能倒掉,造成项目烂尾。

我也一直在关注大模型领域的最新进展,但当每天都有海量信息袭来时,我认为具有自己的独立思考框架、并持续保持是十分重要的,所以这里我也把近期的信息,并结合自己的思考分享给大家。

其实,相较于To C市场,我更关注To B市场,因为随着大模型逐渐进入深水区,向各个行业渗透也已经成为了必然趋势。

可预见地,未来所有的企业都会强依赖大模型,所有的产品都会基于大模型来开发。**从长远考虑,大模型如何对商业世界产生真正的影响?**才是下个阶段我们更应该关注的焦点。

一、《AI大模型技术能力评估报告》解读

目前,国内典型大模型包括:文心(百度)、M6(阿里)、盘古(华为)、ChatGLM(智谱科技) 、星火(科大讯飞)、日日新(商汤)等。

全球领先的IT市场研究和咨询公司IDC最新发布了《AI大模型技术能力评估报告,2023》,中国市场14个主流厂商参与了本次调研,IDC选取了9家大模型技术厂商进行重点研究,通过用户访谈调研,从用户关注的技术能力、产品功能、生态服务等方面进行了全面评估。

我之所以会关注这个报告,基于如下几点原因:

  1. 基于目前的国际态势,我认为国内一定会跑出一至两个大模型,可类比百度之于谷歌,阿里云之于AWS,这是我始终关注国产大模型进展的原因。
  2. IDC是国际权威咨询机构,行业认可度较高,所以该报告是具有权威性的。
  3. 本报告不单单基于技术角度对大模型进行评估,涵盖了算法能力、行业覆盖度、生态合作等等指标。我一直相信,不能闭门造车式的搞技术,曲高和寡往往意味着不切实际,技术终究是要服务于商业、服务于社会的。

我们再来具体看看IDC是怎么评估大模型的:

  1. IDC将大模型分为三层,即服务生态、产品技术以及行业应用。
  2. 对每一层的能力进行测评,主要考察指标为:算法模型、通用能力、创新能力、平台能力、安全可解释、大模型的应用行业以及配套服务和大模型生态等10余个指标(具体包括36项细颗粒度的评估标准),每个指标有1分-5分五个层级,得分越高代表厂商大模型技术能力越强,最终评估结果通过雷达图展示。
  3. 在大模型的选择上,IDC选取了中国市场9家大模型技术厂商进行重点研究,分别为阿里巴巴、百度、第四范式、科大讯飞、澜舟科技、云从科技、智谱AI、中国电信智科以及中科闻歌。除此之外,IDC还观察到了360、MiniMax、华为、商汤科技、腾讯等大模型。

ps:IDC也表示,会持续更新测评,涵盖更多技术厂商。

二、文心大模型的优异表现值得关注

值得一提的是,百度的文心大模型在此次评估中的表现十分亮眼,引起了我的注意。

其具体的表现如下:

七项核心指标满分(5分):算法模型、通用能力、创新能力、平台能力、生态合作、行业覆盖、能源行业;

三项国内唯一满分(5分):算法模型、行业覆盖、能源行业;

五项指标4分:安全可解释、服务能力、金融行业、工业行业、医疗行业。

下面两张图分别是文心大模型与其他国产模型的横向对比,以及文心大模型自身在各个指标中的评分:

这里我想额外说明一下"算法模型"和"行业覆盖"两个指标。

产品技术能力中,"算法模型"维度是最重要的,是大模型能力最为核心的要素,也是决定大模型应用效果的根本所在。只有通过算法模型技术的突破,实现具有通用效果优势的大模型底座,才能支撑更广泛的行业覆盖,才能使各行各业充分享受技术突破带来的红利,破解AI落地门槛高的困境。

在应用能力中,行业覆盖的广度是当下大模型厂商最为关注的指标。"行业覆盖"通过企业级客户数量和落地行业数,体现了大模型在产业落地上的实力,是大模型效果通用领先性、行业结合能力两方面的综合体现。

"算法模型""行业覆盖"两个核心指标有其内在的关联性,行业覆盖的广度是算法模型通用领先性的集中体现,也将为算法模型能力持续提升提供源源不断的正向反馈,形成持续迭代提升的飞轮。

文心大模型获得了算法模型维度的唯一一个满分,体现了百度在大模型核心技术上的先发优势。百度自2019年开始深耕预训练模型研发,先后发布知识增强文心系列模型。近期的文心大模型3.5版本实现了基础模型升级、精调技术创新、知识点增强、逻辑推理增强等,新版本在效果、功能、性能都有了全面提升。

另外,除了本次的评估报告,其他多个公开测评显示,文心大模型3.5版支持下的文心一言中文能力突出,甚至有超出GPT-4 的表现;综合能力在评测中超过ChatGPT,遥遥领先于其他大模型。

在SuperCLUE最新测评榜单中,文心一言已经超越GPT3.5turbo,也超越GLM130B。

三、企业用大模型,要如何选择

基于《AI大模型技术能力评估报告》的结果,引发了我对于大模型选型问题的思考,既然上面我们说到:未来所有的企业都会强依赖大模型。

那么我们是应该选择商用模型还是开源模型,选择与大厂合作还是与初创公司合作?这些就成了绕不开的问题。

我先说我的结论:选择大厂的商用模型是最优选择。原因如下:

1、时间是最宝贵的资源

无论是对于刚起步的公司,还是已经具备一定规模的公司,想要在如今日渐激烈的市场谋求发展,最重要的资源是什么?是时间,这是一场和时间赛跑的游戏。

你这边在等一个开源模型从GPT-3的能力进化到GPT-3.5,而你的对手公司直接上了具有GPT-4能力的商用模型,无论从产品能力或用户体验上直接碾压你。所以从这个角度来看,选择商用大模型,是你取得先发优势的唯一选择。

2、对于To B大模型来说,行业经验远比参数重要

正如前文所说,闭门造车式的关注参数、规模是没有意义的,对于To B场景,积累的行业经验往往才是起到决定性作用的。

就我目前收集到的信息来看,百度在这个方面已经处于领跑地位,过去几个月,百度智能云在化工、制造、能源及汽车等大工业制造板块频繁有新的动作。比如,7月初,华晨宝马宣布与百度战略合作,双方称将共享优势资源,探索 AI 技术与汽车制造业全域场景的融合创新。上月,中国石化与百度战略合作协议,在行业人工智能基础设施建设、数字化转型升级与大模型等新技术创新等六大领域展开合作。电力行业里,5月,百度与南网总调签署备忘录,双方要共推AI与电力调度融合创新。

这也意味着,从各方面来说,百度的文心大模型无疑都已经基于其先发优势,处于了领跑地位。

相关推荐
几米哥3 小时前
如何构建高效的AI代理系统:LLM应用实践与最佳方案的深度解析
llm·aigc
敲代码敲到头发茂密3 小时前
【大语言模型】LangChain 核心模块介绍(Memorys)
android·语言模型·langchain
西西弗Sisyphus3 小时前
RAGFlow 基于深度文档理解构建的开源 RAG引擎 - 在 Ubuntu 上安装 Docker Engine
docker·大模型·rag
WebCandy5 小时前
Github Copilot:已免费,速回归!!!
编辑器·github·copilot·ai编程
西西弗Sisyphus5 小时前
RAGFlow 基于深度文档理解构建的开源 RAG引擎 vm.max_map_count配置
大模型·rag
西西弗Sisyphus11 小时前
大型语言模型(LLMs)演化树 Large Language Models
人工智能·语言模型·自然语言处理·大模型
西西弗Sisyphus20 小时前
探索多模态大语言模型(MLLMs)的推理能力
人工智能·计算机视觉·语言模型·大模型
WebCandy1 天前
EsChatPro 接入国内 DeepSeek 大模型
ai·aigc
云边有个稻草人1 天前
AIGC与娱乐产业:颠覆创意与生产的新力量
aigc·娱乐
猫头虎1 天前
新纪天工 开物焕彩:重大科技成就发布会参会感
人工智能·开源·aigc·开放原子·开源软件·gpu算力·agi