多模态 + 大模型会带来哪些 “化学反应”？

导语：没人怀疑，2024 年，AI 依然将是科技界的主角。上个月，OpenAI 推出了可以生成 60 秒高清视频的视频生成模型 Sora，掀起了对多模态模型的进一轮讨论。多模态大模型技术的最新进展如何？这一波新技术，对于行业和消费者的体验会带来哪些变化？面对一波波快速、热闹的突破和变化，技术人员该如何适应多模态 + 大模型时代？

InfoQ《极客有约》邀请了来自清华大学副研究员、曾入选人工智能全球最具影响力学者榜单和全球前 2% 顶尖科学家榜单的赵思成老师，与在机器学习、搜推广系统领域有十余年的前沿探索和工业实践经验、现任京东零售高级技术总监的彭长平老师，一起深入探讨了这些话题。

无论对大模型一知半解的入门者，还是期冀通过大模型技术实现突破的探索者，此次对话都极具价值。

1 视频生成崭露头角多模态大模型进展如何？

InfoQ：继去年生成式大模型大火之后，多模态又成为近期热点，可否请两位老师介绍下 AIGC 和多模态技术到底能够带来哪些变化？目前在学术界和业界分别有哪些最新进展和重要挑战？

赵思成 ：AIGC 与多模态技术的结合在多个领域产生了深远的影响。以智慧零售领域为例，广告的呈现方式正在经历变革。传统的广告主要依赖人工设计和修改，成本较高且修改过程较为繁琐。而现在，通过 AIGC 和多模态技术，我们可以更高效地完成这些任务。通过语音与大模型进行交互，经过多次迭代，快速达到理想的效果。

然而，目前的多模态大模型也存在一些问题。首先，它们存在较为严重的幻觉问题，表现为无中生有、不连贯、常识缺失等。其次，在处理文本时，它们对中文的理解还不够深入。此外，在处理图像等模态时，多模态大模型更注重全局理解，对局部物体的理解仍有待加强。在一些垂直细分领域，如细粒度识别领域和情感计算领域，大模型做得还不够好。这些问题与多模态大模型的训练数据、训练方式、以及内部架构都有关系，值得研究者进一步探索。

彭长平 ：当大模型与搜推等具体业务场景结合时，要获得用户的信任，必须解决幻觉或胡编乱造的问题。我们目前尝试的思路包括基于检索的 RAG 和基于专业化数据场景化数据的 SFT。虽然有所改善，但可靠性和可信度仍需进一步提高，还有很大的提升空间。

关于挑战，首先，在多模态数据方面，需要不同类型的数据对齐 。无论是业界还是学术界，大规模对齐数据的获取都是一个难题。其次，对于图像、视频和直播等多媒体物料，与人脑对比，计算机对于图片和视频的表征效率，远低于文本。第三，不同类型的任务，建模方式不太一样。还没有出现在图像领域多种任务上，都达到或者接近 SOTA 的统一模型。因此，多模态领域还有许多值得探索和攻克的方向。

InfoQ：聚焦来看，在多模态检索与识别中，如何有效地融合图像和音频等不同类型的信息以提高检索和识别的准确性一直是业界很难解决的问题，这其中最大的技术挑战是什么？

赵思成：我 21 年在 IEEE Signal Processing Magazine 写过一篇多模态的综述，主要是关于多模态情感识别的，总结了多模态的优势和挑战。

多模态情感识别的优势主要包括：数据互补性、模型鲁棒性和性能优越性 ，例如，当 用户在京东上评价一个商品时，如果同时附上文字和图片，那么两者之间可以形成互补，使得情感表达更加准确。同时，即使某个模态的数据缺失，模型仍可以依靠其他模态进行情感判断。此外，与单模态情感视频相比，多模态情感视频在性能上可以获得约 10% 的提升。

然而，多模态情感识别也面临一些挑战，例如跨模态不一致性和不平衡性。为了融合不同模态的信息，我们提出了两种主要的融合方法：一类是与模型无关的融合，包括特征级融合（早期融合）、决策级融合（晚期融合）和混合融合，优点是简单没有额外的参数，缺点是性能差；另一类是基于模型的融合，把融合的事交给模型去学习，优点是性能好，缺点是有更多参数需要学习。由于不同模态的语义空间、特征空间差别比较大，如何让不同模态进行更好地交互与对齐来提高检索和识别的性能，还值得我们深入研究。

此前 Open AI 发布的多模态大模型 GPT-4 能够接受图像和文本输入，生成文本，通过引入更多人类反馈数据进行训练，不断吸取现实世界使用的经验教训进行改进，可以更准确地解决多模态融合难题，具有更广泛的常识和解决问题的能力：更具创造性和协作性；能够处理超过两万个单词的文本，允许长文内容创建、扩展对话以及文档搜索和分析等用例。

InfoQ：从基础模型到业务创新应用涌现了非常多，两位老师有没有印象深刻的应用？整体来看，能够带来突破性变化和让所有人带来显著体感的不太多，这可能会是什么原因？

赵思成 ：我对机器翻译的应用感触颇深。当我的学生们需要写英文论文时，如果英文写作能力有限，机器翻译可以成为得力助手。以前，我们需要分别学习中文到英文、中文到俄文等不同的翻译模型，而现在有了统一的学习，我们可以将中文内容交给机器进行翻译，再根据翻译结果进行修改和完善。这不仅提高了论文写作的速度，还能确保质量。

虽然目前这种应用还处于初级阶段，对下游任务和业务场景的识别还不够成熟，但相信随着时间的积累，我们会看到更多令人惊艳的应用出现。正如智能手机的发展推动了各类应用的涌现，随着技术的不断进步，未来的应用场景一定会更加丰富和多样。

彭长平 ：我一直关注着 AI 行业的发展，2023 年涌现出许多令人惊艳的技术，如 GPT、Midjourney、Google 的多模态视频以及 Pika 的视频生成技术等。这些技术令人感到通用人工智能似乎近在咫尺。然而在实际应用中，这些技术并没有得到大规模或持续性的使用，特别是在 C 端消费者产品方面。当评估 C 端产品时，人们通常关注 NPS 和留存率这两个指标 ，这需要产品具有可靠性，但目前阶段的 AGI 技术还无法达到非常可靠的水平。从技术后台预估下一个 token 的几率来看，现阶段也未能实现可靠的性能。因此，AGI 技术目前所面临的挑战是如何实现高可靠性，并获得用户的信任，使其能够产生可靠的结果。

从我的判断来看，B 端场景可能会更早地实现 AGI 技术的应用落地。对于商家运营等场景，AGI 技术可以通过提高效率来满足其需求，更容易越过用户的心理门槛。因为在带来效率提升的同时，满足商家诉求将更容易获得用户的信任并持续使用。因此，我预测 B 端应用可能会更早地进入用户认为可靠并持续使用的状态。

InfoQ：早在 2021 年，清华 - 京东就联合成立了智慧零售技术联合研究中心，这两年，很多研究方向都与多模态相关。当时这个合作和这些研究方向是如何选定的？

彭长平 ：在京东与清华智慧零售研究中心的合作过程中，我们考察了多个方向，最终将多模态作为主要投入方向。这个决策基于三个关键因素：首先，清华大学信息学院在认知科学和计算机视觉领域拥有深厚的技术积累 ，有一批像赵思成老师这样的学术大咖和青年才俊在这些方向持续研究；其次，视频、直播已经成为最主流的信息传递方式，零售行业也随这种信息载体变化而发生变革，受益于此，线上零售的份额和效率都在提升 ；第三，结合京东的业务场景，用户、商品、内容都在高速增长，以多模态为基础的内容理解是核心技术，我们认为传统的建模和依赖行为的方式遇到了瓶颈，相反，多模态方法更适合理解和描述新的商品和内容。

站在当下，无论是回望过去两年的合作成果，还是看向未来的 AGI 大潮，我们都觉得当年在多模态上合作并投入双方资源，是很正确的选择。

赵思成：清华大学在机器学习、计算机视觉、推荐系统等多个领域具有国际领先的技术积累，京东作为零售行业的头部企业，具有多年的行业积累，面临数字化智能升级机遇。两者合作实现互补，可以推动理论突破、技术创新和产业升级。

对于研究方向的选择，零售行业与多模态紧密相关 。例如，当我们通过文本搜索商品时，除了文本描述外，还希望看到相关的图像和视频来更全面地了解产品。这一过程涉及多模态内容，因此我们决定深入研究动态多模态。京东拥有海量的动态数据，为我们的研究提供了有力支持。

2 这一波新技术，对于行业和消费者的体验会带来哪些变化？

InfoQ：从初代用户搜什么系统推荐什么，到后来 AI 发展带来 "千人千面" 的搜索体验，再到现在大模型时代，各家都在尝试推出能够实现多轮交互的电商平台 AI 导购，搜推系统正在朝着越来越懂用户的方向持续发展。这一波新技术，对于消费者的体验会带来哪些变化？

彭长平：我们都知道搜索和推荐场景的业务高度依赖 AI 算法。随着 AGI 技术的不断增强，预计会有两个明显的体验变化。

首先，个性化将得到显著提升 。尽管之前的搜索和推荐也号称千人千面，但更多是基于一个大的候选池子进行匹配。而随着生成式内容的出现，每个用户对于同一商品所关注的点会有所不同，因此呈现的素材、卖点和内容也会因人而异。这意味着，同一个商品对于不同用户展现的内容也会有所不同，从而实现更强的个性化。

其次，购物将朝着助手化的方向发展 。随着 AGI 技术的可靠性和信任度不断提升，购物助手将越来越受到用户的信赖。这些助手能够深入了解用户的真实诉求，甚至发现用户自己都没有意识到的东西。这是通过大模型将大量非场景相关的物料和电商行业知识压缩到模型中实现的。这些知识不仅包括电商行为物料，还涵盖了更广泛的行业知识。最终，助手推送的东西可能比用户自己更了解自己的需求，从而为用户带来惊喜和满足感。

总之，随着 AGI 技术的不断发展和应用，购物体验将变得更加个性化、智能化和高效化。

InfoQ：传统电商场景会强依赖用户行为和平台数据，那新技术的加持能否带来变化，可以突破以往解决不了的问题？

彭长平 ：相对行为来说，主要有几个方面的影响。首先，传统的行为模型在典型的冷启场景和用户行为丰富的场景中表现可靠，但一 旦遇到新商品或用户行为稀疏的情况，其可靠性就会下降。这主要是因为模型在这些场景下对内容的理解和刻画能力有限。而引入多模态技术和内容理解后，模型的泛化能力和传递能力得到了显著增强。这使得模型在行为稀疏的场景下也能保持较高的准确性，从而提高了整个系统的可靠性。

此外，多模态技术还有助于解决电商平台常见的马太问题，即强者越强、弱者越弱的现象 。通过引入新技术，我们可以改善这一问题，促进整个生态的健康发展。主持人提到，零售领域的数据完整度相对较好，结构化程度也较高。然而，在实际应用中，我们仍然面临大量商品用户行为稀疏的问题。这意味着，虽然我们的匹配技术在处理几亿用户和几十万或百万量级的商品时表现出色，但仍有大量商品因缺乏用户行为数据而无法得到展示机会。而内容理解技术的引入，极大地促进了这些商家在京东的成长和获取订单的机会。因此，多模态技术和内容理解在提升零售平台的用户体验和商家在京东的生意增长方面都具有重要作用。

InfoQ：距离更充分地理解 "用户" 和更聪明智慧地推荐，还有哪些技术难点需要攻克？

彭长平：对于购物助手的概念，我们认为它必须具备两个核心要素。首先，它必须能够随时随地为用户提供购物帮助 ，这就要求我们突破多模态技术，因为只有多模态技术才能准确识别用户的场景和需求。其次，购物助手不能仅仅依赖于京东站内的行为数据，它还需要融入整个行业的知识、商品的内容以及视频化内容等，以全面刻画购物知识。

早期，我们曾考虑过利用知识图谱来整合京东采销的专业知识。然而，随着 ChatGPT 和大模型的兴起，我们意识到这种完全依赖于人工结构化知识或知识图谱的方式可能不是最佳选择。相反，类似于 Transformer 的大模型结构，通过将大量数据输入模型并让其自主输出，可能更适合构建一套可靠的购物助手知识体系。

赵思成：购物助手应该能够精准理解用户的需求和偏好，避免当用户在 A 处购买商品后，B 和 C 仍继续推荐同一商品。同时，购物助手应该能够深入分析用户搜索但未购买商品的原因，无论是价格、质量还是服务，从而为用户提供更加符合需求的购物体验。随着技术的不断进步，我相信购物助手将能够更好地满足用户的需求，为用户的购物过程带来更多的便利和愉悦。

InfoQ：如果大模型和多模态的技术未来真的成熟了，未来电商平台的推荐系统会迎来哪些巨大的改变？会给业务带来哪些全新的应用场景？

彭长平 ：对于 C 端用户来说 ，当前的推荐系统仍然停留在给出候选列表供用户选择的阶段。然而，如思成老师所说，用户可能经常对列表中的选项都不满意。我认为，随着技术的发展，真正的购物助手应该能够大大减少用户挑选的过程，甚至可能只推荐一个或两个高度符合用户需求的商品 。这需要我们引入大量的行业知识，充分理解商品内容，确保推荐的商品真正符合用户的关注点。当购物助手能够满足用户百分之八九十的购物需求时，它将成为用户随时随地的得力助手，而不仅仅是打开某个 APP 的功能。

对于 B 端商家来说，随着大模型技术的广泛应用，许多领域的成本都有可能大幅度降低，也就是 Sam Altman 去年曾发文阐述过的 "万物摩尔定律"。零售是一个注重效率的行业，如果商家运营和生产成本能够降低，商品价格也有可能大幅下降。这将为用户带来更大的实惠和更满足个性化需求的商品。因为生产成本和运营成本的降低，商品本身甚至可能实现个性化定制。目前，我们为 B 端商家提供了一些基于 AI 技术的工具，旨在简化商家与平台的交互过程。然而，这只是初步阶段。为了真正提高效率，我们需要将这套逻辑应用到更多环节，从而将整个零售链条的效率提升到新的水平。

赵思成 ：我认为，如果购物助手能够实现跨平台、跨区域、跨领域和跨语言的推荐 ，这将是一个巨大的进步。同时，我也非常重视用户体验，特别是虚拟现实和元宇宙技术在提升购物体验方面的潜力。想象一下，如果能在虚拟环境中试穿各种衣服或者感受不同床的软硬程度，这将是一种全新的购物体验。

InfoQ：在搜推广领域，京东是如何将多模态和大模型运用到业务场景中的？相比传统方式，有哪些指标能体现出来明显优于传统的搜推？

彭长平 ：从 ToB、ToC 两个场景来说：ToB 素材和内容制作，经营助手。效率更高，上手更快，依赖度更高，迭代效率更快。ToC，两方面：一方面将大模型应用于商品、内容理解和用户 Query 理解。但更重要的方面是，我们基于 AGI 的算法模式，重新思考搜推广的整个链路，从召回、CTR/CVR 预估、重排、机制，重新设计我们的算法。

关于指标这块，随着多模态相关技术的引入，特别是加强了对内容类别的理解之后，我们能够明显地看到模型的泛化能力有所提升。对于新用户、新商品、新场景和新内容等稀疏用户行为的情况，这些技术加上大模型的结合，使得模型在这些场景中相对于原有模型具有明显的优势。因此，我们相信这种技术能够更好地应对各种问题，为用户带来更好的体验。

3 面对一波波快速、热闹的突破和变化，技术人员又该如何适应多模态 + 大模型时代？

InfoQ：新技术变化迅速，对于技术同学们而言，如何快速学习？

赵思成 ：我认为快速学习是分年龄段的。对于学生或者年轻技术人员而言，由于他们拥有相对充裕的时间和精力，可以更多地投入于阅读论文和关注前沿进展。他们可以追随行业内的领军人物，关注他们的研究成果，从而拓宽自己的知识视野。

对于像我这样的中年老师或者中层技术管理者来说，由于日常工作中需要处理各种会议、项目申请等事务，分配给阅读论文的时间相对较少。可以鼓励学生或者年轻同学们深入研读，并创造一个相互分享理解和发现的氛围。这样，在把握整体趋势的同时，可以共同讨论并确定研究方向。

对于更高层级的决策者，可能不需要对具体的研究细节有深入的了解。他们的主要任务是确保团队的大方向正确，保持与业界和学术界的联系，确保项目的顺利进行，从而确保整个团队的生存与发展。

彭长平 ：回顾我们学习的过程，技术的演变总是迅速而深刻。深度学习兴起后，我们主要聚焦于深度网络，而其他算法逐渐边缘化。现在，ChatGPT 的出现预示着一种趋势，它可能引领技术发展方向，使众多纷繁复杂的技术路线逐渐收敛到更适应 AGI 模式的算法和技术路径上。

因此，我们在选择技术路线时，可以参考 AGI 的发展趋势。我们内部在进行技术选型时，也采用这一标准。面对 a、b、c 三种方法，我们会评估哪种方法更适合 AGI 模式下的长期发展。基于这一评估，我们确定长期技术路线，然后规划短期行动步骤，以实现最终目标。ChatGPT 的出现实际上减轻了我们的学习负担，因为它提供了一个更统一的标准，我们可以依据这个标准做出选择。

InfoQ：大模型时代，哪些是工程师们的核心能力？

彭长平：技术人员的核心竞争力一定会变化，因为技术产生业务收益的方式不一样了。可以认为这是一次 "机器学习" 技术范式的迁移。我觉得首先要具备跟随技术范式迁移，适应变化的心理准备。但核心竞争力是不是下面描述的，纯属个人预判。先回顾一下大规模机器学习的在工业界 3 个阶段，每个阶段算法工程师主要干的活都不太一样：

"LR 时代"：基于业务和数据的理解，大比例的时间花在了设计人工 Feature；

"DNN 时代" 基于业务和数据的理解，大比例的时间花在了在调模型结构；

但进入 "AGI 时代" 后，模型结构 Transformer 与 GPU 的适配，正在统一江湖。我认为核心的竞争力是：数据、算法、算力的 Co-design 能力。尤其是无监督训练任务的设计，以及不同场景和类型的数据，在算力条件的约束下如何联合训练。

赵思成：使用大模型，适配大模型，充分挖掘大模型的潜力是最重要的。深度学习工程师需要掌握深度学习算法和模型的理解，具备模型训练和调优的能力，了解大规模数据处理和分布式计算技术，熟悉模型部署和性能优化的方法，具备软件工程和工程实践的技能，并具备解决问题和创新的能力。这些核心能力可以帮助工程师在大模型时代高效地应对挑战并取得成功。

InfoQ：大模型时代，做事方法和思维模式上应该如何变化？团队和组织设置应该如何设置？

赵思成 ：首先，我们不能排斥大模型，因为大模型的时代已经来临，这是不可避免的趋势。正如前三次工业革命带来的变革和影响，我们必须适应并接纳大模型作为提升生产力的工具。

其次，我认为我们应该专注于自己擅长并感兴趣的事情。为了实现这一目标，我们可以组建一个多学科交叉的团队，每个成员都能够在自己的领域内发挥专长，并共同追求卓越。这样，我们不仅能够将每个人的能力发挥到极致，还能通过团队的合作实现更大的成就。

彭长平 ：我认为 AGI 和 ChatGPT 代表了一种技术范式的转型。从思维层面来看，我坚信这一方向是正确的，并且在可见的未来内，它有可能沿着这一方向迅速发展。因此，在进行技术选择时，我会以此作为标准，判断是选择技术 A 还是技术 B。从方法论角度来说，我们需要深入理解数据和算力约束，并基于这些逻辑来设计算法和训练任务。在当前阶段，快速迭代显得尤为重要。由于许多团队都在瞄准同一方向，快速迭代和准确判断离目标的距离成为了关键。

在团队建设方面，我与赵思成老师的观点相似。团队成员之间需要在技术目标上保持一致的信仰，同时能力上需要多元化，以适应快速迭代的需求。以 OpenAI 为例，尽管他们只有 700 多名员工，但他们所创造的价值和影响力远超我们的想象。这表明，一个小而精的团队结构可能更适合当前阶段的快速迭代。

扫一扫，与作者技术交流一下吧！