百万用户通话新风潮:仅需50秒,无界AI让彩铃变身短视频

无界AI是由杭州超节点信息科技有限公司创立的国内领先的人工智能生成内容(AIGC)平台 , 专注于人工智能大模型在图像视频领域的生成创造,为用户提供先进且丰富的AIGC工具,满足不限于动漫、影视、短视频创作及设计等各行各业的图片与视频内容生产需求。自上线以来,无界AI平台已累计超过400多万C端、B端用户。在无界AI的图片/视频生成、AI写真等项目场景中,他们已使用硅基流动研发的图片/视频生成推理引擎OneDiff来提升效率。其中,在AI定制视频彩铃项目中,他们在对比评测多个推理加速引擎后选择了OneDiff,取得了显著的加速效果和使用体验,最终顺利与浙江联通达成合作。

作者|****无界AI算法团队

1

团队背景

我们无界AI算法团队主要专注于三大方向:一是自研行业模型训练,包含文本、图片、视频和3D模型等内容的生成,其中还涉及对不同行业场景数据定制的图片/视频打标模型,不同类型image/video caption对训练和作画的影响,以及适配不同的训练技术;二是算法的预研、改进和落地,比如可控的图片/视频/3D生成和编辑,图片和视频的风格化,小样本对象或风格化身等;三是企业解决方案的定制,对于一些大B客户的需求,在以上模型和算法的基础上,我们会给出更完整的解决方案。

基于这些方向,我们做过不少行业Top企业合作的项目,比如与万事利合作的丝绸纹样大模型,与某快消品牌合作的"回到童年"儿童节营销活动和手绘新春红包的新活动,与vivo合作的用一张用户图片3分钟制作化身生成AI写真,与《神隐》发行方合作的用一张用户图片化身剧中角色,以及与浙江联通合作的AI定制视频彩铃等项目。

2

项目挑战与技术选型

无界AI产品的一项功能是图片生成视频,让用户能基于一张图片生成对应内容的一小段视频。基于这个功能,我们跟浙江联通碰撞出AI定制视频彩铃项目,用户上传一张自己的照片,AI生成用户在特定场景中的动态视频,这个项目在春节期间开放给用户使用,场景上是与春节相关的喜庆画面,也可用作拜年视频。

上线期间,浙江联通向用户推送了这个活动,因活动形式比较新颖,吸引了大量用户。大量的用户制作请求给我们的项目带来了巨大挑战:在有限的资源下,我们要尽量减少用户的等待时间,因此生成效率十分重要。此外,项目方对效果的要求也比较高,用户人脸出现在场景后的人脸相似性,场景图片合成后生成视频的动态合理性,人脸的高保真等都是不小的挑战。

推理加速是我们团队一直在关注的领域,比如之前的AITemplate、OneFlow等,我们是从社区知道的OneDiff,在它支持SVD后,就第一时间对OneDiff社区版进行了各种使用场景下的详细评测,包括效果的一致性和显存的变化。OneDiff相比TensorRT等其他开源或闭源框架优势明显,简单来说:

一是加速比上更稳定 。在普通的作画场景,不同尺寸下并叠加一些控制,使用OneDiff平均有40%以上的性能提升 。在特定场景,比如图生视频,生成4s的1024x576和1024x1024画幅视频时,带来了约100%的推理加速和10%的显存节约

二是适配性比较好。比如支持多尺寸和LoRA热插拔,以及兼容SVD等最新的算法。

三是方便上手。支持Diffusers/ComfyUI/WebUI应用框架。

在AI定制视频彩铃项目中,优化之前,单次图片生成视频需要90s,使用OneDiff优化后可以用50s生成,效率提升非常显著,用户上传照片即可自动生成精美视频彩铃。

龙年伊始,我们顺利同浙江联通达成合作。截止目前, AI定制视频彩铃活动已经触达上百万联通用户,日均视频创作量上千,该活动也促成无界AI成为浙江广电浙江联通战略合作伙伴,其中OneDiff功不可没。

3

结语

在图生视频、单张图片生成、AI写真等一些单点项目或功能上已经使用了OneDiff,我们也在测试OneDiff企业版,非常期待在性能方面能有更大的提升。

未来,我们非常期待OneDiff能够提供更多强大的功能,例如ControlNet(WebUI)等,也期待OneDiff能对训练阶段有所加速,比如LoRA的训练。此外,我们在LLM、图片生成、视频生成、3D模型生成方面都有应用,如果OneDiff在这些场景都有对应的模型或算法支持是最好的。

我们相信,OneDiff将会成为更加优秀的AIGC算法加速工具,为广大开发者带来更大的便利。感谢OneDiff团队的辛勤付出!

**【OneDiff v0.12.1正式发布(生产环境稳定加速SD&SVD)】**本次更新包含以下亮点,欢迎体验新版本:github.com/siliconflow/onediff

* 更新SDXL和SVD的SOTA性能

* 全面支持SD和SVD动态分辨率运行

* 编译/保存/加载HF Diffusers的pipeline

* HF Diffusers的快速LoRA加载和切换

* 加速了InstantID(加速1.8倍)

* 加速了SDXL Lightning

(SDXL E2E Time)

(SVD E2E Time)

更多详情:medium.com/@SiliconFlo...

相关推荐
shinelord明3 分钟前
【Python】Python知识总结浅析
开发语言·人工智能·python
S0linteeH10 分钟前
Windows 11 的 24H2 更新將帶來全新 Copilot+ AI PC 功能
人工智能·copilot
AI大模型_学习君20 分钟前
大模型书籍强烈安利:《掌握NLP:从基础到大语言模型》(附PDF)
人工智能·深度学习·机器学习·语言模型·自然语言处理·pdf·ai大模型
AIGC安琪1 小时前
[ComfyUI]Flux:开源可商用F1!Apache2开源OpenFLUX1模型,已去蒸馏可微调
人工智能·stable diffusion·开源·aigc·midjourney·ai绘画·flux
背水1 小时前
pillow常用知识
人工智能·计算机视觉·pillow
AI人工智能+1 小时前
浅析人脸活体检测技术的实现过程及其应用领域
人工智能·计算机视觉
凭栏落花侧1 小时前
回归分析在数据挖掘中的应用简析
人工智能·数据挖掘·回归
通信仿真实验室2 小时前
(15)衰落信道模型作用于信号是相乘还是卷积
开发语言·人工智能·算法·matlab
如果能为勤奋颁奖3 小时前
YOLO11改进|注意力机制篇|引入上下文锚注意力机制CAA
人工智能·深度学习·yolo
黄焖鸡能干四碗3 小时前
【需求分析】软件系统需求设计报告,需求分析报告,需求总结报告(原件PPT)
大数据·人工智能·安全·测试用例·需求分析