AI视频“入驻”手机,多模态成智能终端的新战场

文|乐乐

今天,无线蓝牙耳机(TWS)已经成为人人都用得起的产品。

但退回到9年前,苹果AirPods是全球第一款真正意义上的无线蓝牙耳机。靠着自研并申请专利的Snoop监听技术,苹果解决了蓝牙耳机左右延时和能耗不一的问题。由此,AirPods吃下了2016-2018年的大部分市场,直到两年后其它厂商才学会类似技术。

靠技术红利获胜,是苹果的经典操作,也是今天的手机厂商们在苹果身上学到的重要一课。

对于近两年的手机市场来说,AI无疑就是搅动手机市场的关键技术变量。

为了找到AI技术落地的杀手级功能,从Agent、AI修图到AI问答,智能终端在做的事情就是在AI生态上尽可能做各种各样的加法。

在高度同质化的AI手机赛道,手机厂商们亟需找到创新的AI技术落地功能。而荣耀,正在悄悄拿下多个首发优势。

在近期荣耀400的发布会现场,图生视频成了荣耀"吃螃蟹"的又一首发功能,这背后是合作方生数科技旗下的AI视频大模型在移动端的首次规模化落地。

联手生数科技Vidu,荣耀突破了三大难关------保持风格一致性、对物理世界的理解、端侧成本压缩,让用户免费体验"老照片复活术"。

而就在两个月前,生数科技 Vidu Q1模型刚以VBench双榜第一的成绩碾压Sora与Runway,如今就悄然钻进千万用户的口袋。

这场合作背后,一场更深层的变革正在发酵。

当前,多模态正在重构智能终端的交互体验,手机正成为图生视频技术普惠的战场之一。当大模型的技术竞赛从语言模型延伸到多模态,"让记忆重获生命"的图生视频,或许正是打开大众市场的第一把钥匙。

当图生视频在手机上跑起来

一张由AI制作的"Live Photo",成为了荣耀发布会现场众人讨论的焦点。

照片中,一个小孩抱着窗帘看向镜头微笑。经由图生视频功能加工后,小孩抓着窗帘向一边摇晃,头部也随着晃动方向微微倾斜,脸上挂着的笑容变成了动态,能看到嘴角咧起的弧度和鼓起的脸颊。

在荣耀产品线总裁方飞的演示中,只需要点击"AI生图"功能,选定相应照片和生成的视频时长(3秒/5秒),AI就能根据图片场景生成一段流畅的视频。上述案例就是由该功能生成。

早在3月宣布向AI终端生态公司转型的荣耀,在数字系列荣耀400上落地了一系列AI能力。光是照片一项,荣耀就上线了AI图生视频、AI去褶皱、AI去眼镜反光、AI去玻璃反光、图生视频等优化功能。

看起来简单的视频演示,背后是图生视频技术落地智能终端的一大步:攻克了技术难点,才能让AI视频看起来无限趋近于真实。

首先,要想让视频动起来的效果符合真实世界的运行规律,就是视频生成模型们早期的通病。比如提示词设定成两个人打羽毛球,交给AI来做,球可能会出现凭空飞起或者不按照球拍击打轨迹飞行等问题,导致生成出来的作品无法使用。

当下,如何更好地模拟物理世界规律,也成了大模型们面前的难关。就在3月份,生数科技发布的模型Vidu Q1,在VBench-1.0的视频质量、视频语义一致性和 VBench-2.0的常识推理、物理理解等综合维度上达到SOTA水平。靠着对提示词的理解力增强,Vidu能自动识别人物动作、光影、位置关系等内容,让生成的视频在动态上符合物理世界规律。

此外,在风格一致性上,擅长动漫、水墨等多种画风理解的Vidu,在保持原图风格一致上的表现相对稳定。相比于会把真实图片上传后随机转换成油画、动漫等风格的视频生成模型,Vidu显然在场景理解上的表现更胜一筹。

不过,要想让AI视频真正普及,还需要考虑的就是生成速度和成本问题。等待时间超过几分钟,用户体验感会直线下滑,成本太高也会拖垮手机厂商的钱包。

而荣耀和生数科技一起克服了这几个问题,把图生视频玩法搬上了手机。相对于各大视频应用靠会员制收费,荣耀的图生视频功能完全免费,让用户不花钱也能体验。

虽然这次并未公布具体的生成时长和成本,但根据此前Vidu 1.5版本做到几秒生成、Vidu 2.0单秒成本最低不到3毛钱的价格来看,AI视频已经具备了落地端侧的条件。

除此之外,AI视频大模型的技术一直在进步,未来或将在手机等智能终端中实现更多的功能。

比如,AI视频一直存在一个技术难点------主体一致性。主体一致性,是指保持人物、物体、环境等主体一致,不会面部五官乱飞,环境前后连贯

2024年,生数科技在新模型Vidu 1.5中实现多主体一致性,使用者可以上传背景和多个主体人物的照片,AI就能将这些自定义元素组合在一起,根据提示词生成视频。

以多主体一致性来说,海螺AI的"主体参考"功能和可灵的"多图参考"均在今年1月上线,比Vidu慢了2个月。

多模态,智能终端的新战场

多模态大模型,最近半年内正在肉眼可见的批量落地。

在App端,字节在5月23日给自家AI助手应用豆包装上了视频通话功能。背靠自研的视频推理模型,豆包不仅能"睁眼看世界",还能根据看到的画面推测接下来的动作,比如炒菜的时候,豆包能够根据原料猜出对应的菜,并且给出炒菜的具体步骤。

腾讯则在5月份发布了语音模型Human-Voice,并预告腾讯元宝将会在6月上线语音通话功能。同时,腾讯还会上线全球首个全模态模型"混元-O"。

在智能终端上,本身通过GUI(图形用户界面)实现交互的手机厂商们,就是多模态大模型的重要载体。

可以说,从这一轮生成式AI开始时,多模态AI就被厂商纳入了考虑范围。只是一开始在技术能力受限的情况下,大语言模型成为了端侧大模型落地最早的一种。

多模态模型在端测的应用更广,场景更多,不仅可以为以往场景赋能,还能有新的互动体验场景,受众范围也会更广,因为视频图像的受众总是大于文字的。

随着多模态能力的技术进步,端侧语音和视频交互的比重正在上升。

比如,一些在端侧运行的大语言模型逐渐被多模态大模型代替,相应应用的底座也升级为多模态:

2024年1月,荣耀发布自研端侧70亿参数平台级AI大模型"魔法大模型"家族,包括语言大模型和图像、语音多模态大模型,支持智慧成片、图库语义搜索等功能,让AI能够"理解"图片;在购物、娱乐、办公等场景,开启跨时代交互体验。2024年5月,vivo发布多模态大模型技术应用"vivo看见-蓝心升级版",用于帮助视障用户理解世界。

伴随行业多模态能力的突破,以往受限于能力不足的AI应用,也迎来了能力突破。

其中,最突出的应用领域就是Agent(智能体)。通过调用手机屏幕截图,再将图片提供给多模态大模型的方式,AI开始能够真正"理解"屏幕信息,并根据用户指令工作。这就有了去年以荣耀为首等一系列手机厂商开卷智能体的动作,从荣耀的YoYo智能体到vivo蓝心智能体再到OPPO的"AI问屏",都是基于多模态能力实现的自主智能体产品。

基于多模态能力的AI修图系列功能,也是应用更加广泛的方向。早在2010年,手机厂商就开始探索基于图像理解的AI摄影算法,通过对图片的理解,用算法还原图片生成的细节。

而在生成式AI能力进化的当下,基于多模态大模型的一系列图片优化功能也是厂商重点宣传的方向。从各大手机厂商必备的一键修图、图片识别等功能,都是基于人们日常生活中的需求出发。

这一次,荣耀也在发布会上带来了AI修图带来的更多可能性。比如用AI实现"一键抠图",让没有PS功底的用户也能轻松从图片中抠出人像,自由移动编辑;再比如"AI消除眼镜反光"的功能,通过AI消除掉拍照时眼镜折射的色彩。

在智能终端需求和多模态能力普及的当下,二者一拍即合。

AI功能那么多,能用起来的有几个?

从大模型火热以来,手机厂商对AI的热情无比高涨,开发的功能也是多如牛毛。

从对话式聊天助手、AI笔记、AI修图到AI智能体,不上十几个原生的AI应用,那都没法叫AI手机。

图片来源于网络

不过,用户真正能日常使用起来的高频应用,并不多。很多AI功能,要么是独立APP上有更好的替代品,要么就是功能鸡肋用不起来。

另一方面,不少AI应用目前的使用门槛还比较高,一个是对用户的硬件环境有要求,需要PC端至少4090的显卡才能跑起来;另一个是对用户的技能有一定要求,下载、简单部署、甚至海外账号的设置都能拦截掉一大批人。

以上面提到的图生视频来说,虽然可灵、海螺的产品比较成熟,有了很高的可用性,但用户也仅仅局限于相对专业的用户范围内,比如设计师、动画制作师、新媒体从业者等,普通用户想自己用起来还非常难。

但荣耀和生数科技Vidu共同在端侧新推出的图生视频功能,无论是用来将过往的老照片变成视频,还是靠图生视频抓住鲜活的时刻,就又给用户记录生活,创作灵感增添了许多可能。

而一张照片的视频生成,只是一个开始。

智能终端与AI公司联手后,参考生视频、文生视频等AI视频的更多玩法,都有望进一步迁移到智能终端中。

当然,这将进一步考验双方端侧AI、云端协同的技术能力,成本降低的能力。但真正能让用户用起来,才能真正增强产品的竞争力,在手机竞争的红海中逆势上升。

2024年,手机市场变化已经证明了AI对于手机销量的促进作用。在全球手机销量连续下滑两年后,于AI概念真正落地手机的2024年,全球已经连续4个季度实现了同比增长。市场调研机构Canalys提供数据显示,2024年全球手机销量达到12.2亿,同比增长7%。

比起在技术层的炫技,今年,AI在端侧的落地将给人带来更多惊喜。

相关推荐
zskj_zhyl32 分钟前
从“被动养老”到“主动健康管理”:平台如何重构代际关系?
大数据·人工智能·重构
奔跑吧邓邓子36 分钟前
DeepSeek 赋能车路协同:智能交通的破局与重构
人工智能·应用·车路协同·智能交通·deepseek
不剪发的Tony老师1 小时前
sqlite-vec:谁说SQLite不是向量数据库?
数据库·人工智能·sqlite
白熊1882 小时前
【机器学习基础】机器学习入门核心:Jaccard相似度 (Jaccard Index) 和 Pearson相似度 (Pearson Correlation)
人工智能·机器学习
pen-ai2 小时前
【深度学习】17. 深度生成模型:DCGAN与Wasserstein GAN公式深度推导
人工智能·深度学习·生成对抗网络
简简单单做算法3 小时前
基于mediapipe深度学习的虚拟画板系统python源码
人工智能·python·深度学习·mediapipe·虚拟画板
qq_314009833 小时前
Windows+VSCode搭建小智(xiaozhi)开发环境
ide·人工智能·vscode·编辑器·开源软件
技术便签3 小时前
第一篇:揭示模型上下文协议(MCP):AI的通用连接器
人工智能·ai编程·language model·多智能体·智能体
AI视觉网奇3 小时前
opencv 可视化函数
人工智能·opencv·计算机视觉
zstar-_5 小时前
【Ragflow】24.Ragflow-plus开发日志:增加分词逻辑,修复关键词检索失效问题
人工智能·python·llm