ByteDance 在多主体互动方面取得突破,打破了视频生成竞赛的格局

9 月 24 日,ByteDance 的技术部门火山引擎(Volcano Engine)推出了两款先进的视频生成模型 PixelDance 和 Seaweed,通过复杂的多镜头动作和多个主体之间的复杂互动,显著增强了视频内容创建能力。 这些模型开辟了新的领域,它们能遵从复杂的指令,并在各种镜头运动中保持人物外观和电影摄影的高度一致性,与实景拍摄非常相似。

这两种型号都采用 DiT 架构,其中集成了高效的 DiT 融合计算单元。 这项技术有助于在变焦、摇镜头、倾斜、缩放和目标跟踪等摄影技术之间自由转换,解决了业界在镜头转换过程中保持主题、风格和气氛一致性的难题。

新的扩散模型训练方法的开发成功解决了多个摄像机切换时的一致性问题,确保了整个视频中主体和整体视觉风格的统一呈现。 此外,增强型变形器结构提高了模型的泛化能力,使其能够支持各种动画风格并适应不同的屏幕比例。 这使得它们在电子商务营销、动画教育、文化旅游等应用领域具有很强的通用性,为专业艺术家和创作者提供了大量的创作帮助。

这些模型在 CapCut 和 Dreamina 等实际应用中经过不断迭代改进,实现了专业级照明和色彩混合,大大增强了视觉吸引力和真实感。

PixelDance 和 Seaweed 面向企业市场,具有强大的语义理解能力,善于管理复杂的交互,并能在多个摄像机视图中实现一致的内容交付。

火山引擎还透露,自今年 5 月首次推出以来,豆瓣语言模型的日使用量已激增十倍,超过 1.3 万亿个令牌,多模态数据处理量达到每天 5000 万张图片和 85 万小时语音数据。

豆包机型的定价策略低于行业平均水平的 99%,在中国大型机型领域掀起了降价风潮,消除了成本对创新的阻碍。 随着企业应用的扩大,支持更高的流量已成为行业增长的关键因素。

此外,虽然目前的行业标准将 TPM(每分钟代币数)上限设定为 300K 至 100K,不足以满足某些企业应用的需求,但豆包模型的初始容量为 800K,远远超过这些标准,并可根据客户需求进行扩展。 这种能力使模型能够支持科研、汽车智能系统和人工智能教育等高需求场景,这些场景对 TPM 的峰值要求远远超过行业平均水平。

相关推荐
Dxy12393102164 小时前
如何让AI给我们做数据分析:从数据清洗到洞察生成的完整指南
人工智能·数据挖掘·数据分析
电商API&Tina4 小时前
电商数据采集 API:驱动选品、定价、运营的数据分析核心引擎
大数据·开发语言·人工智能·python·数据分析·json
Elastic 中国社区官方博客4 小时前
在 ES|QL 中的混合搜索和多阶段检索
大数据·人工智能·sql·elasticsearch·搜索引擎·ai·全文检索
偶信科技4 小时前
ADCP钛合金材质如何提升设备的耐用性?偶信科技 3.5kg钛合金ADCP成为新宠儿
人工智能·科技·材质·偶信科技·ocean·海洋仪器·adcp
视界先声4 小时前
中商旅游一卡通——打造国内惠民旅游领先平台
大数据·人工智能
小咖自动剪辑4 小时前
小咖批量剪辑助手:视频批量自动剪辑与混剪处理软件(Windows)
人工智能·实时互动·音视频·语音识别·视频编解码
hkNaruto4 小时前
【AI】AI学习笔记:MCP 核心三角色指南:基于 OpenAI 的架构解析
人工智能·笔记·学习
四川极客创想科技4 小时前
智慧旅游平台项目概要与核心功能全景解析
人工智能·数据分析·团队开发·旅游·风景
reesn4 小时前
模型转ONNX流程指南
人工智能·语言模型
是Dream呀4 小时前
从课程入坑到玩转昇腾:昇腾 310 系列平台下 Qwen2.5-7B 大模型训练实践
人工智能·鲲鹏·昇腾