商汤破解世界模型秘诀,「日日新」实现AI大一统!原生融合模型破纪录双冠王

大模型发展到今天,下一步该走向何方?

就在刚刚,商汤给出了答案------原生融合模态!

最近的 CES 大会上,英伟达提出能理解世界的「世界模型」Cosmos,能够将文本、图像、视频作为输入。

英雄所见略同,凭借着十年的深耕和 AI 赋能场景的经验,商汤也认为,原生融合是世界模型的必经之路。

或者说,多模态模型,是 AI 2.0 进行场景落地的必由之路。

就在最近,商汤「日日新」融合大模型上线了!

一个模型,就实现了多模态的融合。这是商汤率先在原生融合模态上取得了实质性突破,成为业界在这一领域的领跑者。

这一突破标志着,大语言模型和多模态模型普遍分立的现状,从此刻迈向真正意义上的「大一统」时代!

跨模态交互融合,通往世界模型的必经之路

一般来说,LLM 的工作原理,是根据提示一次生成一个 token 产生输出。如果上下文变成了现实周围环境,大模型就需要从生成「内容 token」转变为生成「动作 token」。

随着 AI 落地到各种场景,它需要对多维度、多模态的信息有感知、理解、分析、判断,如果模型不能有效综合处理这些模态,模型的智能水平就会很容易达到天花板。

原生模态融合之所以如此意义重大,就是因为实现之后,模型就不止能达到「看」和「想」的水平,而是可以帮助人类解决更多复杂问题。

看不清的字体,数据图表里的信息,文学创作与撰写,举棋不定的游戏...... 现在,这些任务全部可以实现了。

实测:模型会看,还会想

接下来,不如看看「日日新」融合大模型在实际任务中的表现。

无论是非常难认的英文手写诗,还是俄文手写诗,它都能认出来。

上传一张几乎难以辨认的英文手写体诗歌,日日新竟毫不费力地读出了每一行诗。最关键的是,它还完整复刻原文的书写格式。

再比如这张俄语诗歌,对于非母语的人来说,大脑只剩一片空白。

对于日日新来说,简直小菜一碟,不仅准确写出了原文诗句,还顺便把它翻译成了比较有意境的中文版。

有了日日新,对于拍题写作业的学生们来说,简直就是绝绝子。

以往,你可能需要将题目打成文字,发给 AI 去解,而现在拍题、解答能够一并交给 AI。

将附有自己解答的一道题图片上传,AI 一眼就辨认出错误点。而且,它还能做到举一反三,完全就是学习神器。

还有一些让人笑出鹅叫的小学生错题,日日新能完美解读答案好笑在哪里。

爆笑小学生作文的幽默之处,它都能 get。

同样的,日日新非常精准指出了这幅画作的特点------捕捉到了狗的神态和动作。

对于如何提升画技,它又给出了行之有效的方式。

再上传一张雕像的图片,它能识别出图中历史人物,并分析出对应的历史典故。

甚至,它还能通过一张游戏的截图,分析出电脑的具体配置,从 CPU、到 GPU,再到内存,都逐一列了出来。

通过以上要点,它推断得出可以该电脑可跑大模型。

上传一张图,日日新就能分析出代码实现了什么。

一张国外网友制作的表情包,日日新也能够准确领会图中的要点。

它认为,人类正在 AGI 的爬坡上,若要实现真正的 AGI,还需要更多研发和工作。对于另一个问题,也看懂了 Sam Altman 本人正逐步逼近 ASI。

再比如,这张大模型智商大比拼图中,数字杂多,我们想要了解 o3 和 o1 的智商如何,直接扔给日日新就可以了。

对于 AI 来说,一眼就看出了图中 o3 IQ 为 157,o1 IQ 为 135。它还给出了这个评测的标准,以及 Codeforces 背景信息介绍。

当被问到更为发散的问题------o3 与爱因斯坦谁更聪明时,日日新非常客观地看待这个问题。

若要从最直接的 IQ 结果来看,爱因斯坦比 o3 聪明些,但 AI 还综合考虑了智力评测的多个维度进行分析。

而世界模型的到来,或许还意味着能对地球和人类更好的理解,找到和宇宙对话的方法。

文科超越 o1 全球第一,理科国内金牌

同样,多方的评测结果也证明,商汤果然摸到了一条正确的路。

完成训练后的商汤「日日新」融合大模型,首次出战即拿下语言和多模态两个榜单的双料冠军。

近日,SuperCLUE 2024 年度榜单中,「日日新」融合大模型以 68.3 高分,与 DeepSeek V3 并列国内榜首,成为年度第一

同时,在 OpenCompass 多模态评测中,同一款模型更是力压 GPT-4o,独占鳌头

具体来看,SuperCLUE 覆盖了 29 个国内模型,聚焦大模型的通用能力测评,由理科、文科和 Hard 三大维度构成。

而此次获得 68.3 高分的商汤「日日新」融合大模型,直接超越了 Claude 3.5 Sonnet 和 Gemini-2.0-Flash-Exp。

令人印象深刻的是,「日日新」在各项能力上表现均衡,在三大维度上均处领先。

在文科任务上,它以 81.8 分位列全球第一,超越 OpenAI 的 o1 和 GPT-4o-latest。

而在理科任务上,它直接夺得了金牌,其中计算维度以 78.2 分位列国内第一并超过 GPT-4o-latest。

如此惊艳的表现,是否需要很高的成本呢?

好消息是,融合模态模型训练的成本也并不高。相比同样量级的 LLM,训练成本也就是增加 20% 左右。

原因在于,这实际上是一个多阶段的训练,语言模式和多模态模式的训练合在了一起,因而只用了 1.2 倍左右的成本。

技术路线:原生融合多模态

深挖背后,离不开商汤在**「原生融合多模态」**------一条独特且富有前瞻性的技术发展路径上,取得的创新突破。

在大模型百舸争流的当下,各家都在积极布局多模态,但技术路径的选择却大不相同。

通常来讲,业内普遍采用了分离式架构,多模态和语言模型分步训练,然后再通过中间层实现功能整合。

从实际应用角度来考虑,语言只是信息的一部分,世界中很多信息可能是以图像、视频等形态存在的。

如果不能有效综合处理这些信息的话,那么这个模型的能力很快就会触及到天花板。

商汤认为,融合多模态是未来的一条必由之路,其技术最显著的特点是「单一模型,多模态融合」

直白讲,单一模型同时训练和处理多模态,成为一个原生的多模态模型。

这也就意味着,在一个统一的模型框架内,同时具备了处理文本、图像、视频、音频多种模态信息的能力。

值得注意的是,商汤选择的这条技术路线,与 OpenAI、Anthropic、谷歌同频共振。比如,GPT-4o、Claude 3.5、Gemini 2.0 都采用了类似的单一模型融合多模态的技术路径。

正如商汤联合创始人、人工智能基础设施及大模型首席科学家林达华所言,这种策略的选择,带来了显著的优势------

首先,在训练成本方面,相较于分别训练两个模型的方案,融合多模态方案仅增加 20% 的训练成本,就能获得等效的能力

其次,这种一体化设计在处理多模态任务时,更为高效和自然。

那么,既然这条原生融合技术路线是必由之路,我们又该如何去实践它,至今没有具体方法论,也无人能效仿。

实际上,从去年年底开始,原生多模态大模型就逐渐成为业内探讨的重要方向。

然而由于数据和训练方法的局限,业内很多机构的尝试并不成功------多模态训练过程往往会导致纯语言任务,尤其是指令跟随和推理任务的性能严重下降。

在这个充满挑战的赛道上,商汤凭借其在 CV 领域十年深厚积累,给出了独一份解决之道。

他们独创性提出了两项关键技术------融合模态数据合成与融合任务增强训练。

融合模态数据合成

NeurIPS 演讲上,Ilya 曾当众宣布当前 AI 行业已达到「数据峰值」。无独有偶,马斯克最近直播中也称,「我们基本上已经把 AI 训练中能利用的人类知识都挖空了」。

互联网数据几近枯竭,早已成为屡见不鲜的话题。

业界一致将希望寄托于「合成数据」身上,就比如,OpenAI 曾被曝出用合成数据,来辅助训练下一代模型 Orion;Anthropic 利用 Claude 3.5 Opus 生成合成数据提升模型性能。

不仅如此,还可以从微软 Phi 系列模型中,可以看到合成数据的巨大潜力。

最新 Phi-4 合成数据比例高达 40%,而且增加合成数据训练 epoch,比纯增加互联网数据,性能提升效果更明显

可以证明,合成数据是能够缓解数据不够的一种方法。

商汤在融合多模态技术路线最大的创新之一,便是**「融合模态数据合成」**。那么,他们是具体如何做到的呢?

在研究过程中,团队发现,当更多的数据和模态用一种有效和有机的方式融合在一起进行训练时,模型在不同环节和方向上都表现出更优的性能。

跟 AI 1.0 时代相比,这是很不一样的。当时,一个模型的能力非常有限,如果同时训练它做两件事情,可能两件事都做不好。

然而在大模型时代,在不同的场景都可以观察到------

相比单一模态(如单纯的语言或图文模式),多模态有机融合的模型在智能水平上有显著提升。

在越来越多的工作中,都可以观察到这种现象:随着更多的模态进行有机的融合,模型会涌现出更强的智能水平。

这种多模态技术在实践中的巨大潜力,已经在商汤绝影自动驾驶核心模型中得到了应用。

而在预训练阶段,商汤不仅采用了天然存在的海量图文交错数据,还通过逆渲染、基于混合语义的图像生成等方法合成了大量融合模态数据

由此,团队就成功在图文模态之间建立起大量交互桥梁,使得模型基座对于模态之间的丰富关系掌握得更扎实,因而能更好地完成跨模态任务,提升了整体性能。

融合任务增强训练

在完成预训练之后,模型还要针对多项任务进行增强训练。

不难理解,只有融合模型对实际应用场景有了深刻洞察,在场景驱动下,才能实现落地开花。

就好比一个大学生,学了很多知识,在进入社会之前,需要一些实操磨练,才能真正走进岗位。

融合多模态模型也是如此,为此,商汤基于多年来对广泛业务场景的认知,构建了一系列跨模态任务。

具体涵盖了交互、多模态文档分析、城市场景理解、车载场景理解等等。

通过把这些任务融入到增强训练的过程,模型不仅被激发出强大的对多模态信息进行整合理解分析的能力,而且还形成了对业务场景有效的响应能力。

在这个过程中,模型就走通了应用落地反哺基础模型迭代的闭环。

只有真正做到多模态的交互与深度融合,才能让模型走向统一,也是通向世界模型的必经之路。

目前,基于「日日新」融合大模型,商汤已经在多个实际场景中取得了突破的成果。

扩展应用新维度

在很多 B 端应用、商业竞争上,商汤已经具备了较大优势。

在办公、金融领域,经常会用到很多复杂的多模态文档,比如表格、文本、图片、视频等,以及以上形式的融合。

那么,面对如此丰富复杂的信息,融合大模型就有了非常大的优势。

基于「日日新」打造的**「办公小浣熊」**,便能够高效处理多种格式的办公文档,智能分析复杂业务数据,还能提精准的信息提取服务。

甚至许多已经在媒体上发布的图文并茂的文章,都会得到多模态的综合解读。

在前文已经提到的自动驾驶领域,原生融合模态模型就大有可为。

未来,乘客或司机可以靠语音去和车载智能体对话。智能体既能看到车里、车外的状态,感知各种信号,还能和人做文字模态的语音交互。

还有一个场景,就是视频交互

商汤已发布的日日新 5o,就是基于视频实时交互的应用。人可以在一个视频的场景下,去跟机器交流,无论的语言还是画面,AI 都需要结合在一起去理解。

协助城市治理、园区管理的场景中,原生融合模态模型也将提供极大的助力,为客户提供文字、图像、视频材料结合的回答。

去年 10 月,商汤 CEO 徐立公开了商汤接下来 10 年 「大模型、大装置和应用」三位一体的整体战略

现在,多模态融合的大模型已经成为商汤 AI 2.0 的基座,承载了交互变革、提升生产力助手两个应用方向。

随着商汤把融合模态的技术路径整体走通,一个全新的想象空间已经打开。

未来,整个空间结构将会如何输入?跟 LLM 和推理能力将怎样结合?

走通了通道和方法论的商汤,必将探索的触角伸向更多范畴。

参考资料:

chat.sensetime.com/

相关推荐
Mr.Winter`3 小时前
轨迹优化 | 基于贝塞尔曲线的无约束路径平滑与粗轨迹生成(附ROS C++/Python仿真)
人工智能·机器人·自动驾驶·ros·几何学·ros2·轨迹优化
臣妾写不来啊3 小时前
了解如何学习自然语言处理技术
人工智能·学习·自然语言处理
敲敲敲-敲代码4 小时前
【机器学习】神经网络(BP算法)含具体计算过程
人工智能·笔记·神经网络·机器学习
说私域5 小时前
社群团购项目运营策略的深度剖析:融合链动2+1模式、AI智能名片与S2B2C商城小程序的综合应用
大数据·人工智能·小程序
IT古董6 小时前
【机器学习】主动学习-增加标签的操作方法-流式选择性采样(Stream-based selective sampling)
人工智能·学习·机器学习
被制作时长两年半的个人练习生6 小时前
【AscendC】tiling方案设计不当引起的一个时隐时现的bug
人工智能·bug·算子开发·ascendc
KeyPan6 小时前
【机器学习:十九、反向传播】
人工智能·深度学习·机器学习
埃菲尔铁塔_CV算法8 小时前
双线性插值算法:原理、实现、优化及在图像处理和多领域中的广泛应用与发展趋势(二)
c++·人工智能·算法·机器学习·计算机视觉
程序猿阿伟8 小时前
《AI赋能鸿蒙Next,打造极致沉浸感游戏》
人工智能·游戏·harmonyos
遇健李的幸运8 小时前
深入浅出:Agent如何调用工具——从OpenAI Function Call到CrewAI框架
人工智能