前几天可灵融资的新闻出来以后,群里又炸了一轮------AI视频生成越来越成熟,但有个问题一直没人解决:你拿什么去喂AI视频?
大部分人的小说原文,直接扔给AI视频工具,出来的东西惨不忍睹。因为AI视频需要的是"分镜级"的描述------镜号、时长、景别、运镜、画面内容------这些你让一个写小说的人凭空写,他写不出来。
所以我自己搭了一个工具。核心逻辑很简单:用LLM把小说文本转成结构化的剧本格式,再从剧本格式拆解为九列专业分镜表,最后把每一镜的描述编译成AI绘画提示词。
花了点时间调Prompt,效果出乎意料地好。分享一下核心思路和完整Prompt。
一、整体架构
输入:小说原文(300-3000字)
│
▼
【Layer 1】文本→剧本转换器
│ Prompt:专业编剧模式
│ 输出:标准剧本格式(场景/对白/动作已分色标注)
▼
【Layer 2】剧本→分镜拆解器
│ Prompt:AI导演分镜模式
│ 输出:九列分镜表(镜号/时长/景别/运镜/画面/场景/声音/备注/叙事)
▼
【Layer 3】分镜→提示词编译器
│ Prompt:AI绘画提示词专家模式
│ 输出:中英双语提示词(适配Midjourney/SD/FLUX)
▼
输出:可直接用于拍摄/AI生成的完整分镜包
三层之间用结构化JSON传递数据,每一层的输出都是下一层的输入。这样设计的好处是:每一层都可以单独替换模型。
二、核心Prompt(Layer 1)
# System Prompt: 小说→剧本转换
你是一个专业影视编剧。
任务:将用户提供的小说文本转化为标准剧本格式。
输出规则:
- 每段前标注类型标签:[场景] [对白] [动作] [旁白]
- 场景标注包含:内外景 + 时间 + 地点
- 对白标注包含:角色名 + 语气提示
- 动作描写保留原文细节,但改用进行时
- 删除冗余的心理描写,转换为可拍摄的动作指示
示例输入:
"阿嫲走的那天,天上下着小雨。我站在病房门口,看着她躺在床上,呼吸越来越弱。想说什么,喉咙像被堵住了。"
示例输出:
[场景] 内景·病房·白天 · 阴雨天气
[动作] 病房门半掩。雨水在玻璃窗上蜿蜒流下。
[动作] 阿嫲躺在床上,胸口缓慢起伏。呼吸声越来越轻。
[动作] 我站在门口,手扶着门框。嘴巴张了一下,没发出声音。
[对白] 我(低声,哽咽):"阿嫲......"
[动作] 阿嫲的手指动了一下,没有睁开眼。
三、核心Prompt(Layer 2)
# System Prompt: 剧本→九列分镜
你是一个电影导演兼分镜师。
任务:将标准剧本格式拆解为专业九列分镜表。
九列定义为:
① 镜号(顺序编号)
② 时长(秒数,建议3-8秒/镜)
③ 摄影角度(平视/俯拍/仰拍/过肩/推/拉/跟/摇)
④ 景别(远景/全景/中景/近景/特写/大特写)
⑤ 画面内容(对剧本动作的视觉化描述,包含构图建议)
⑥ 场景(室内/室外 + 具体环境)
⑦ 声音(对白/音效/BGM/留白)
⑧ 备注(特殊要求/转场方式/视觉参考)
⑨ 叙事功能(建立情绪/推进剧情/展示细节/制造悬念)
输出格式:JSON数组,每镜一个对象
每个字段不超过50字,画面内容不超过100字。
四、效果实测
拿一篇3000字的短篇小说做测试。原文讲的是一个潮汕游子回乡参加奶奶葬礼的故事。
输入 小说原文(3000字)→ 输出1 标准剧本格式(约600字)→ 输出2 九列分镜表(16镜/约2000字)→ 输出3 AI提示词(中英双语/16组)
全部跑完耗时:约23秒(DeepSeek API,连续调用3次)。
九列分镜表的每一列都有内容,不是糊弄人的占位符。我把其中一镜的提示词扔进Midjourney,出来的画面基本还原了小说里的场景描述。
五、一些思考
这个工具我封装成了一个桌面应用,内置了DeepSeek引擎,也支持接入OpenAI和Claude的API Key。
但说实话,技术实现不是最难的。最难的是想明白一个问题:AI应该替人干活,还是替人想活?
我的答案是前者。工具把剧本、分镜、提示词这些"脏活累活"干完,创作者只需要做一件事------讲好你的故事。
评论区扣"分镜",我把体验入口发你。
需要完整代码或工具体验的,评论区扣"分镜"
也欢迎技术同好交流Prompt优化思路
本文由人类撰写,代码示例经实际测试可运行。