三个月诞生79个基础大模型，企业选用大模型需要注意些什么？

自从ChatGPT横空出世，各类大模型层出不穷，竞争也日渐激烈，可谓"乱花渐欲迷人眼"。

随着大公司的入场，无疑给创业公司带来了降维打击，创业公司随时可能倒掉，造成项目烂尾。

我也一直在关注大模型领域的最新进展，但当每天都有海量信息袭来时，我认为具有自己的独立思考框架、并持续保持是十分重要的，所以这里我也把近期的信息，并结合自己的思考分享给大家。

其实，相较于To C市场，我更关注To B市场，因为随着大模型逐渐进入深水区，向各个行业渗透也已经成为了必然趋势。

可预见地，未来所有的企业都会强依赖大模型，所有的产品都会基于大模型来开发。**从长远考虑，大模型如何对商业世界产生真正的影响？**才是下个阶段我们更应该关注的焦点。

一、《AI大模型技术能力评估报告》解读

目前，国内典型大模型包括：文心（百度）、M6（阿里）、盘古（华为）、ChatGLM（智谱科技）、星火（科大讯飞）、日日新（商汤）等。

全球领先的IT市场研究和咨询公司IDC最新发布了《AI大模型技术能力评估报告，2023》，中国市场14个主流厂商参与了本次调研，IDC选取了9家大模型技术厂商进行重点研究，通过用户访谈调研，从用户关注的技术能力、产品功能、生态服务等方面进行了全面评估。

我之所以会关注这个报告，基于如下几点原因：

基于目前的国际态势，我认为国内一定会跑出一至两个大模型，可类比百度之于谷歌，阿里云之于AWS，这是我始终关注国产大模型进展的原因。
IDC是国际权威咨询机构，行业认可度较高，所以该报告是具有权威性的。
本报告不单单基于技术角度对大模型进行评估，涵盖了算法能力、行业覆盖度、生态合作等等指标。我一直相信，不能闭门造车式的搞技术，曲高和寡往往意味着不切实际，技术终究是要服务于商业、服务于社会的。

我们再来具体看看IDC是怎么评估大模型的：

IDC将大模型分为三层，即服务生态、产品技术以及行业应用。
对每一层的能力进行测评，主要考察指标为：算法模型、通用能力、创新能力、平台能力、安全可解释、大模型的应用行业以及配套服务和大模型生态等10余个指标（具体包括36项细颗粒度的评估标准），每个指标有1分-5分五个层级，得分越高代表厂商大模型技术能力越强，最终评估结果通过雷达图展示。
在大模型的选择上，IDC选取了中国市场9家大模型技术厂商进行重点研究，分别为阿里巴巴、百度、第四范式、科大讯飞、澜舟科技、云从科技、智谱AI、中国电信智科以及中科闻歌。除此之外，IDC还观察到了360、MiniMax、华为、商汤科技、腾讯等大模型。

ps：IDC也表示，会持续更新测评，涵盖更多技术厂商。

二、文心大模型的优异表现值得关注

值得一提的是，百度的文心大模型在此次评估中的表现十分亮眼，引起了我的注意。

其具体的表现如下：

七项核心指标满分（5分）：算法模型、通用能力、创新能力、平台能力、生态合作、行业覆盖、能源行业；

三项国内唯一满分（5分）：算法模型、行业覆盖、能源行业；

五项指标4分：安全可解释、服务能力、金融行业、工业行业、医疗行业。

下面两张图分别是文心大模型与其他国产模型的横向对比，以及文心大模型自身在各个指标中的评分：

这里我想额外说明一下"算法模型"和"行业覆盖"两个指标。

产品技术能力中，"算法模型"维度是最重要的，是大模型能力最为核心的要素，也是决定大模型应用效果的根本所在。只有通过算法模型技术的突破，实现具有通用效果优势的大模型底座，才能支撑更广泛的行业覆盖，才能使各行各业充分享受技术突破带来的红利，破解AI落地门槛高的困境。

在应用能力中，行业覆盖的广度是当下大模型厂商最为关注的指标。"行业覆盖"通过企业级客户数量和落地行业数，体现了大模型在产业落地上的实力，是大模型效果通用领先性、行业结合能力两方面的综合体现。

"算法模型""行业覆盖"两个核心指标有其内在的关联性，行业覆盖的广度是算法模型通用领先性的集中体现，也将为算法模型能力持续提升提供源源不断的正向反馈，形成持续迭代提升的飞轮。

文心大模型获得了算法模型维度的唯一一个满分，体现了百度在大模型核心技术上的先发优势。百度自2019年开始深耕预训练模型研发，先后发布知识增强文心系列模型。近期的文心大模型3.5版本实现了基础模型升级、精调技术创新、知识点增强、逻辑推理增强等，新版本在效果、功能、性能都有了全面提升。

另外，除了本次的评估报告，其他多个公开测评显示，文心大模型3.5版支持下的文心一言中文能力突出，甚至有超出GPT-4 的表现；综合能力在评测中超过ChatGPT，遥遥领先于其他大模型。

在SuperCLUE最新测评榜单中，文心一言已经超越GPT3.5turbo，也超越GLM130B。

三、企业用大模型，要如何选择

基于《AI大模型技术能力评估报告》的结果，引发了我对于大模型选型问题的思考，既然上面我们说到：未来所有的企业都会强依赖大模型。

那么我们是应该选择商用模型还是开源模型，选择与大厂合作还是与初创公司合作？这些就成了绕不开的问题。

我先说我的结论：选择大厂的商用模型是最优选择。原因如下：

1、时间是最宝贵的资源

无论是对于刚起步的公司，还是已经具备一定规模的公司，想要在如今日渐激烈的市场谋求发展，最重要的资源是什么？是时间，这是一场和时间赛跑的游戏。

你这边在等一个开源模型从GPT-3的能力进化到GPT-3.5，而你的对手公司直接上了具有GPT-4能力的商用模型，无论从产品能力或用户体验上直接碾压你。所以从这个角度来看，选择商用大模型，是你取得先发优势的唯一选择。

2、对于To B大模型来说，行业经验远比参数重要

正如前文所说，闭门造车式的关注参数、规模是没有意义的，对于To B场景，积累的行业经验往往才是起到决定性作用的。

就我目前收集到的信息来看，百度在这个方面已经处于领跑地位，过去几个月，百度智能云在化工、制造、能源及汽车等大工业制造板块频繁有新的动作。比如，7月初，华晨宝马宣布与百度战略合作，双方称将共享优势资源，探索 AI 技术与汽车制造业全域场景的融合创新。上月，中国石化与百度战略合作协议，在行业人工智能基础设施建设、数字化转型升级与大模型等新技术创新等六大领域展开合作。电力行业里，5月，百度与南网总调签署备忘录，双方要共推AI与电力调度融合创新。

这也意味着，从各方面来说，百度的文心大模型无疑都已经基于其先发优势，处于了领跑地位。