智能体、多模态化大势所趋，探大模型的未来！

导语 | 今年以来，以 ChatGPT 为代表的生成式 AI，在最具挑战性的自然语言处理领域实现革命性突破，在行业掀起新一轮发展热潮。开源大模型正成为人工智能领域的新潮流，AI 大模型在未来将走向何方？今天，我们特邀了丁香园 CTO、腾讯云 TVP 范凯老师，他将为我们带来关于 AI 大模型的独到思考与精彩观点。

作者简介

范凯，丁香园 CTO，腾讯云 TVP，2003 年创办 JavaEye 技术网站，是国内最早推广开源软件 Hibernate，Spring 的开发者之一。2010 年 JavaEye 网站成为国内第二大开发者社区，同年被第一大开发者社区 CSDN 并购；2010-2013 年担任 CSDN CTO，推动中国开发者的移动和云计算技术的普及。2015 年至今，担任丁香园 CTO，组建了丁香园大数据和医疗知识图谱团队。

从 ChatGPT 推出到今天，还不到一年的时间，生成式 AI 其实已经迭代了多次。在技术革命的发展历史上，可以称得上是绝无仅有的进化速度。伴随人工智能技术的飞速发展，大模型近期出现了哪些新趋势呢？

一、大模型的开源化发展趋势

众所周知，Meta 开源了 Llama 之后，改变了商业大模型的竞争态势。特别是在 Llama 2 推出以后，形成了非常完整的 Llama 的开源生态，基于 Llama 出现了各种各样的衍生功能增强的大模型，例如很擅长写代码、做数学题的 Llama，以及善于诊断医疗问题的模型等等。

开源大模型高度的「可玩性」带来了衍生模型的繁荣，这也带来一个全新的 To B 的市场：基于开源的基座大模型，去开发垂直行业大模型，增强大模型在某个垂直领域的能力，让大模型在特定的行业可以落地。

毕竟通用大模型无法面面俱到，无法照顾到每个垂直细分行业的领域知识。而有了开源基座大模型，就给了垂直行业公司机会，去训练自己的垂直大模型。

现在不仅是 Llama 开源。国内也出现了好几个优秀的开源基座大模型，如智谱的 ChatGLM 2，百川的 Baichuan 7B 等。目前已经有很多垂直行业的头部公司基于这些模型去训练和发布自己的垂直大模型了。

我们可以预见，开源大语言模型将在各个领域发挥越来越重要的作用，将全面推动人工智能普及。

二、生成内容基础上，大模型有望成为智能体

用大模型来实现智能体，是当下热门的发展方向。在美国有拿了巨额融资的 Inflection.AI，还有 Character.AI，Adept 等等。

AI 智能体未来在 To C 的方向上的前景也十分可观。现在的智能手机，我们需要安装许多不同功能的 App：购物，打车，外卖，订机票，查询餐厅等。每个 App 都有相应的学习成本和使用成本，但实际上我们只是希望利用 App 来完成我们生活中各种各样的需求。

在未来，当 AI 智能体足够聪明时，它对主人的需求足够了解，并且能够接入所有的服务之后，我们的生活中便不再需要 App，只需要和智能体对话即可。甚至智能体在足够了解主人的情况下，主动帮助主人完成很多事情。

因此，目前移动时代的应用，在未来的 AI 时代，将会被推翻和重塑。未来将呈现一个 AI 时代全新的用户交互方式：人人都将和各种各样的智能体打交道，而非停留在 App 上。

三、大模型的多模态化

GPT-4 最近发布了 Vision 版本，不仅仅可以通过文字来对话，还可以通过语音和图片进行沟通。此前，OpenAI 发布会曾经演示过一个案例：创始人 Brockman 在纸上画了一个网站的原型，然后通过手机把原型图拍摄下来传给 ChatGPT，ChatGPT 就可以根据原型图自己创建一个简单的网站出来。

这意味着大语言模型不仅仅可以理解文字，现在还能够理解图像内容，那么理论上也可以理解视频的内容。可以预想到未来的大模型接上手机摄像头，就像长了眼睛一样，它可以理解我们生活的物理世界，帮助人类完成更多的工作。

比如给机器人安装上一个多模态的大模型，它就变成了真正的智能机器人了，不仅可以看和听，还可以说，当然还可以执行指令和操作。所以多模态的大模型很可能会真正使得机器人普及化。

另外，特斯拉最新的自动驾驶软件，也在测试完全使用大模型去操纵汽车。本质上自动驾驶的大模型就变成了电动汽车的大脑，它通过摄像头去分析路况，然后生成指令去操作汽车。

值得一提的是，在 7 月 6 日，腾讯也发布了混元大模型，它是由腾讯全链路自研的实用级大模型，拥有超千亿参数规模、预训练语料超 2 万亿 tokens，具备强大的中文创作能力，复杂语境下的逻辑推理能力，以及可靠的任务执行能力。腾讯已将大模型技术深度应用到多个业务场景中，包括腾讯会议、腾讯文档、微信搜一搜等在内的超百个业务和产品，已经接入腾讯混元大模型测试，期待混元大模型未来在多模态方向的更多应用。

如果说大模型仅支持文字对话，那么大模型只能影响软件世界，但当大模型支持了多模态，就从软件世界走到了真实的物理世界，开始影响我们所生活的环境。

随着技术的不断进步和应用的深化，我十分期待生成式人工智能在创造性、智能化和个性化方面的突破和创新。我相信，在不久的将来，由 AI 大模型控制的各种智能设备，将会像现在的智能手机一样普及。