三个月诞生79个基础大模型,企业选用大模型需要注意些什么?

自从ChatGPT横空出世,各类大模型层出不穷,竞争也日渐激烈,可谓"乱花渐欲迷人眼"。

随着大公司的入场,无疑给创业公司带来了降维打击,创业公司随时可能倒掉,造成项目烂尾。

我也一直在关注大模型领域的最新进展,但当每天都有海量信息袭来时,我认为具有自己的独立思考框架、并持续保持是十分重要的,所以这里我也把近期的信息,并结合自己的思考分享给大家。

其实,相较于To C市场,我更关注To B市场,因为随着大模型逐渐进入深水区,向各个行业渗透也已经成为了必然趋势。

可预见地,未来所有的企业都会强依赖大模型,所有的产品都会基于大模型来开发。**从长远考虑,大模型如何对商业世界产生真正的影响?**才是下个阶段我们更应该关注的焦点。

一、《AI大模型技术能力评估报告》解读

目前,国内典型大模型包括:文心(百度)、M6(阿里)、盘古(华为)、ChatGLM(智谱科技) 、星火(科大讯飞)、日日新(商汤)等。

全球领先的IT市场研究和咨询公司IDC最新发布了《AI大模型技术能力评估报告,2023》,中国市场14个主流厂商参与了本次调研,IDC选取了9家大模型技术厂商进行重点研究,通过用户访谈调研,从用户关注的技术能力、产品功能、生态服务等方面进行了全面评估。

我之所以会关注这个报告,基于如下几点原因:

  1. 基于目前的国际态势,我认为国内一定会跑出一至两个大模型,可类比百度之于谷歌,阿里云之于AWS,这是我始终关注国产大模型进展的原因。
  2. IDC是国际权威咨询机构,行业认可度较高,所以该报告是具有权威性的。
  3. 本报告不单单基于技术角度对大模型进行评估,涵盖了算法能力、行业覆盖度、生态合作等等指标。我一直相信,不能闭门造车式的搞技术,曲高和寡往往意味着不切实际,技术终究是要服务于商业、服务于社会的。

我们再来具体看看IDC是怎么评估大模型的:

  1. IDC将大模型分为三层,即服务生态、产品技术以及行业应用。
  2. 对每一层的能力进行测评,主要考察指标为:算法模型、通用能力、创新能力、平台能力、安全可解释、大模型的应用行业以及配套服务和大模型生态等10余个指标(具体包括36项细颗粒度的评估标准),每个指标有1分-5分五个层级,得分越高代表厂商大模型技术能力越强,最终评估结果通过雷达图展示。
  3. 在大模型的选择上,IDC选取了中国市场9家大模型技术厂商进行重点研究,分别为阿里巴巴、百度、第四范式、科大讯飞、澜舟科技、云从科技、智谱AI、中国电信智科以及中科闻歌。除此之外,IDC还观察到了360、MiniMax、华为、商汤科技、腾讯等大模型。

ps:IDC也表示,会持续更新测评,涵盖更多技术厂商。

二、文心大模型的优异表现值得关注

值得一提的是,百度的文心大模型在此次评估中的表现十分亮眼,引起了我的注意。

其具体的表现如下:

七项核心指标满分(5分):算法模型、通用能力、创新能力、平台能力、生态合作、行业覆盖、能源行业;

三项国内唯一满分(5分):算法模型、行业覆盖、能源行业;

五项指标4分:安全可解释、服务能力、金融行业、工业行业、医疗行业。

下面两张图分别是文心大模型与其他国产模型的横向对比,以及文心大模型自身在各个指标中的评分:

这里我想额外说明一下"算法模型"和"行业覆盖"两个指标。

产品技术能力中,"算法模型"维度是最重要的,是大模型能力最为核心的要素,也是决定大模型应用效果的根本所在。只有通过算法模型技术的突破,实现具有通用效果优势的大模型底座,才能支撑更广泛的行业覆盖,才能使各行各业充分享受技术突破带来的红利,破解AI落地门槛高的困境。

在应用能力中,行业覆盖的广度是当下大模型厂商最为关注的指标。"行业覆盖"通过企业级客户数量和落地行业数,体现了大模型在产业落地上的实力,是大模型效果通用领先性、行业结合能力两方面的综合体现。

"算法模型""行业覆盖"两个核心指标有其内在的关联性,行业覆盖的广度是算法模型通用领先性的集中体现,也将为算法模型能力持续提升提供源源不断的正向反馈,形成持续迭代提升的飞轮。

文心大模型获得了算法模型维度的唯一一个满分,体现了百度在大模型核心技术上的先发优势。百度自2019年开始深耕预训练模型研发,先后发布知识增强文心系列模型。近期的文心大模型3.5版本实现了基础模型升级、精调技术创新、知识点增强、逻辑推理增强等,新版本在效果、功能、性能都有了全面提升。

另外,除了本次的评估报告,其他多个公开测评显示,文心大模型3.5版支持下的文心一言中文能力突出,甚至有超出GPT-4 的表现;综合能力在评测中超过ChatGPT,遥遥领先于其他大模型。

在SuperCLUE最新测评榜单中,文心一言已经超越GPT3.5turbo,也超越GLM130B。

三、企业用大模型,要如何选择

基于《AI大模型技术能力评估报告》的结果,引发了我对于大模型选型问题的思考,既然上面我们说到:未来所有的企业都会强依赖大模型。

那么我们是应该选择商用模型还是开源模型,选择与大厂合作还是与初创公司合作?这些就成了绕不开的问题。

我先说我的结论:选择大厂的商用模型是最优选择。原因如下:

1、时间是最宝贵的资源

无论是对于刚起步的公司,还是已经具备一定规模的公司,想要在如今日渐激烈的市场谋求发展,最重要的资源是什么?是时间,这是一场和时间赛跑的游戏。

你这边在等一个开源模型从GPT-3的能力进化到GPT-3.5,而你的对手公司直接上了具有GPT-4能力的商用模型,无论从产品能力或用户体验上直接碾压你。所以从这个角度来看,选择商用大模型,是你取得先发优势的唯一选择。

2、对于To B大模型来说,行业经验远比参数重要

正如前文所说,闭门造车式的关注参数、规模是没有意义的,对于To B场景,积累的行业经验往往才是起到决定性作用的。

就我目前收集到的信息来看,百度在这个方面已经处于领跑地位,过去几个月,百度智能云在化工、制造、能源及汽车等大工业制造板块频繁有新的动作。比如,7月初,华晨宝马宣布与百度战略合作,双方称将共享优势资源,探索 AI 技术与汽车制造业全域场景的融合创新。上月,中国石化与百度战略合作协议,在行业人工智能基础设施建设、数字化转型升级与大模型等新技术创新等六大领域展开合作。电力行业里,5月,百度与南网总调签署备忘录,双方要共推AI与电力调度融合创新。

这也意味着,从各方面来说,百度的文心大模型无疑都已经基于其先发优势,处于了领跑地位。

相关推荐
蝎子莱莱爱打怪11 分钟前
OpenClaw 从零配置指南:接入飞书 + 常用命令 + 原理图解
java·后端·ai编程
MaXiaoTiao110514 分钟前
OpenCode配置详细教程(Windows版)
ai编程
Kagol28 分钟前
TinyVue 支持 Skills 啦!现在你可以让 AI 使用 TinyVue 组件搭建项目
前端·agent·ai编程
柳杉31 分钟前
从零打造 AI 全球趋势监测大屏
前端·javascript·aigc
李广坤1 小时前
使用 Skills 的技巧与规范
ai编程
哈基咪怎么可能是AI2 小时前
OpenClaw 插件系统:如何打造全能私人助理 --OpenClaw源码系列第2期
开源·ai编程
饼干哥哥2 小时前
用Openclaw+Obsidian搭建内容工厂,写100W+阅读爆文,单篇6000元
aigc
本末倒置1832 小时前
我研究了OpenClaw一周,发现它不是另一个ChatGPT,而是数字员工的起点
openai·ai编程·claude
DigitalOcean3 小时前
GPU对比:MI350X、MI325X、MI300X、H200、H100
llm·aigc