一、前言
PixVerse 为爱诗科技自研全链路多模态视频生成大模型,全线基于DiT(Diffusion+Transformer) 架构迭代,区别于传统 UNet 扩散视频模型,依靠时空统一注意力、自适应稀疏注意力、原生音画同步三大自研技术,实现 1080P 高清、长时序动作连贯、角色跨帧一致性生成;产品线分为V 通用商用系列、C1 影视专项系列、R1 实时世界模型 ,目前主流商用版本 V5.6/V6/C1/R1 均已上架startapi.top聚合 API 平台,开发者无需对接多家厂商,统一密钥即可切换全系列模型。
二、PixVerse 底层核心技术架构
2.1 基础基座:DiT 扩散 Transformer 架构
PixVerse 全系列抛弃传统 CNN 型视频 Diffusion,采用Patch 化 + 时空联合 DiT Block ,使用adaLN-Zero自适应归一化模块做时序条件控制,把文本 Embedding、时序步长、画面分辨率统一映射至 Token 空间,解决传统模型人物崩坏、镜头抖动、物体形变问题。
- 图像 Patch 分块:视频帧切分为固定尺寸 Patch,2D 空间位置编码 + 时间轴编码融合,统一时空 Token 序列;
- 自研时空联合注意力:摒弃空间 / 时间分离式注意力,全局时空注意力一次性建模画面空间结构与帧间运动轨迹,优化高速运动、多角色同框细节表现;
- adaLN-Zero 条件归一化:文本 Prompt 特征通过交叉注意力注入每一层 Transformer,零初始化残差分支,训练初期稳定收敛,大幅降低提示词跑偏概率。
2.2 三大产品线差异化技术细节
1)V 系列(V5.5/V5.6/V6|通用短视频主力)
- 技术亮点:原生端到端音画同步引擎,内置小型音频大模型,生成视频同步生成环境音、BGM、人物口型配音;自研运动轨迹折叠采样,把扩散采样步数从 50 + 压缩至 12 步,提升推理速度;
- 输出规格:5/8/10/15s,360P~1080P,支持 9:16 竖屏 / 16:9 横屏 / 1:1 方形,V6 新增 20 种电影运镜参数控制。
- 适用:电商带货短视频、自媒体成片、信息流广告。
2)C1 影视专用模型(Cinema 专项)
- 技术亮点:分镜稿转视频架构 + 角色特征锚定模块,上传多格手绘分镜自动连贯成片;引入 3D 物理仿真损失函数,优化格斗、跑酷、流体特效物理真实性;角色参考图特征锁存,全片五官、服饰不跑偏;
- 输出:最长 15s 1080P,高写实 / 3D 动漫 / 院线短片画质,短剧预渲染首选。
3)R1 实时交互式世界模型
- 核心 IRE 瞬时推理引擎:自适应稀疏注意力 + 引导矫正算法,采样仅 1~4 步,流式不间断实时生成 1080P 视频,运行中实时输入指令修改场景、动作,适配虚拟直播、互动短剧开发。
2.3 音频同步实现逻辑
全系列内置多模态 Audio Token 编码器,视频视觉特征映射至音频隐空间,根据画面内容自动生成匹配音效 / 配乐,audio:true开启有声输出,是 PixVerse 区别同类模型关键能力。
三、StartAPI.top 聚合平台接入说明
startapi.top整合 PixVerse 全系列接口,统一请求域名、统一鉴权规则,不用分别对接爱诗官方 API,一个 Key 自由切换 V5.6/V6/C1/R1 四大模型:
- 平台获取:注册
https://startapi.top,创建应用获取API_KEY; - 接口逻辑:视频生成采用异步任务机制:提交生成任务→返回 task_id→轮询查询任务状态→状态 = 1 获取 MP4 视频链接;
- 支持能力:文生视频 (T2V)、图生视频 (I2V)、首尾帧动画、负面提示词、自定义画幅 / 时长 / 分辨率。
接口通用入参说明
| 参数名 | 类型 | 说明 |
|---|---|---|
| model | str | pixverse-v5.6 / pixverse-v6 / pixverse-c1 / pixverse-r1 |
| prompt | str | 正向提示词,中英文均可 |
| negative_prompt | str | 负面提示词,模糊、扭曲、崩坏等 |
| duration | int | 时长:5/8/10/15 |
| resolution | str | 360p/720p/1080p |
| aspect_ratio | str | 9:16 /16:9 /1:1 |
| audio | bool | True 开启自动配乐,False 无声 |
| img_url | str | 图生视频必填,公网图片 URL |
四、Python 实战调用代码
依赖安装:pip install requests
python
import requests
import time
# ========== 配置项(替换为自己startapi.top的key) ==========
API_KEY = "你的StartAPI密钥"
BASE_URL = "https://startapi.top/api/v1/pixverse"
def submit_video_task(params: dict):
"""提交视频生成任务,返回task_id"""
headers = {
"Authorization": f"Bearer {API_KEY}",
"Content-Type": "application/json"
}
resp = requests.post(f"{BASE_URL}/generate", json=params, headers=headers, timeout=60)
res_data = resp.json()
if res_data.get("code") == 200:
return res_data["data"]["task_id"]
else:
print("任务提交失败:", res_data)
return None
def query_video_result(task_id: str):
"""轮询查询生成结果,状态1=生成完成"""
headers = {"Authorization": f"Bearer {API_KEY}"}
while True:
resp = requests.get(f"{BASE_URL}/result?task_id={task_id}", headers=headers)
res_data = resp.json()
if res_data["code"] != 200:
print("查询异常:", res_data)
break
status = res_data["data"]["status"]
if status == 1:
# 生成成功,返回视频地址
return res_data["data"]["video_url"]
elif status in [7,8]:
print("生成失败,审核不通过或渲染异常")
return None
print("生成中,等待3s轮询...")
time.sleep(3)
if __name__ == "__main__":
# 示例1:V6文生视频(1080P竖屏、带音频)
task_params = {
"model": "pixverse-v6",
"prompt": "都市夜晚街道,细雨,行人撑伞走路,电影运镜,写实高清,光影细腻",
"negative_prompt": "模糊,扭曲,人物变形,水印,低画质",
"duration": 8,
"resolution": "1080p",
"aspect_ratio": "9:16",
"audio": True
}
# 提交任务
tid = submit_video_task(task_params)
if tid:
video_link = query_video_result(tid)
if video_link:
print("视频生成完成:", video_link)
# 示例2:C1图生视频(取消注释使用,填入公网图片链接)
# task_params2 = {
# "model": "pixverse-c1",
# "prompt": "原图人物缓慢挥手,微风飘动头发,写实",
# "negative_prompt": "崩坏、畸形",
# "duration":5,
# "resolution":"720p",
# "aspect_ratio":"16:9",
# "audio":False,
# "img_url":"https://xxx.xxx/test.jpg"
# }
五、模型选型开发建议(落地参考)
- 自媒体 / 电商短视频批量生成 →
pixverse-v5.6:性价比高,出片稳定,5/8s 竖屏首选; - 品牌广告、高品质创意短片 →
pixverse-v6:电影运镜 + 高清细节,自动配乐; - 短剧分镜成片、动漫短片、动作特效 →
pixverse-c1; - 虚拟直播、实时互动视频项目 →
pixverse-r1。
六、常见踩坑 FAQ
- Q:生成画面人物崩坏? A:补充负面提示词:
distorted, deformed limbs, blurry face, extra fingers,优先选用 C1/V6 模型; - Q:接口返回审核失败? A:提示词规避敏感内容,修改 prompt 后重新提交;
- Q:图生视频报错? A:
img_url必须为公网可访问 HTTP/HTTPS 链接,不支持本地路径。
七、总结
PixVerse 依靠自研 DiT + 时空注意力 + 原生音画三大技术,在动态连贯性、画质、音频同步上处于国内视频生成模型第一梯队;依托startapi.top聚合平台,开发者不用关心底层算力与模型迭代,一行配置切换全系列模型,快速落地 AI 短视频 SaaS、短剧制片、数字人配套视频生成项目。