Claude + HyperFrames：用 HTML 方式制作视频，AI 时代一切皆可 HTML？

HeyGen 是什么

一句话总结：HeyGen 是一个"AI 视频 + AI 数字人"在线平台，主要帮你快速生成带数字人出镜的视频，以及把已有视频翻译成多语言并做对口型配音。

HeyGen能做什么？

文本 → 视频：你写文案/脚本，选择一个数字人（AI Avatar），它自动生成带画面、配音、字幕、背景等的成片视频。

照片 → 视频：上传照片，输入台词，照片"开口说话"，带对口型和手势。

自己的"数字分身"：录一段自己说话的视频，生成一个外观和声音都很像你的数字人（Digital Twin），以后用它代替你出镜。

视频翻译：上传视频或粘贴 YouTube 链接，选择目标语言，平台会翻译语音并做 AI 对口型、克隆原声音、自动生成多语种字幕，官方号称支持 175+ 语言与方言。

广告/UGC 内容生成：产品图 + 文案 → 由数字人把产品"拿在手里"讲解；也可批量生成短视频平台风格的 UGC/口播类内容。

团队/企业使用：提供多账号协作、品牌资产管理、SCORM 导出、LMS 集成、互动视频（测验、分支跳转）等企业级能力，并有 API 可集成到自有系统

HeyGen 平台也可以根据 prompt 来制作视频，但是额度有限，而HeyGen开源了HyperFrames skills，让你也可以在 Claude code，opencode 以及 cursor 等等 agent 框架下，免费制作 HTML 视频

一句话说清楚HyperFrames是什么

Write HTML. Render video.（写 HTML，渲染视频。）

这是 HyperFrames 在 GitHub 上的官方 Slogan，简单得有些暴力------但背后藏着一个真正颠覆性的思路：把 HTML 文件当作视频的"源代码"，让 AI 智能体像写网页一样去"编写"视频。

这个框架由 AI 视频公司 HeyGen 开源，仓库地址为 github.com/heygen-com/hyperframes，发布仅十余天，在 skills.sh 平台上的周安装量已超过 1,600 次，覆盖 Claude Code、Cursor、Gemini CLI 等主流 AI 编码工具。

为什么视频制作需要一场"范式转移"？

在聊 HyperFrames 之前，我们需要先理解现有视频制作工具的核心矛盾。

当前市面上的视频制作工具，无论是 After Effects、Premiere，还是面向开发者的 Remotion（React 渲染视频），设计上都是以"人类为中心"的。它们的界面、语言、逻辑，都预设了一个坐在屏幕前的人类操作者。

但 AI 时代来了，局面变了。

大语言模型天然地"会"写 HTML，经过数十亿网页的训练，HTML、CSS、JavaScript 已经是它们最熟悉的语言。如果我们能让 AI 用它最擅长的语言------HTML------来描述一段视频，然后把渲染的脏活交给框架去做，这条路是不是更顺畅？

HyperFrames 的核心设计理念，就建立在这个洞察之上：HTML 是视频内容的真正来源（source of truth）。

它到底怎么工作？

核心机制：data 属性即时间轴

HyperFrames 的革命性在于，它用 HTML 的 data-* 属性来描述视频的时序和轨道信息。看一段示例代码：

复制代码

<div id="stage" data-composition-id="my-video" data-start="0" data-width="1920" data-height="1080">  <!-- 第 0 秒开始播放，持续 5 秒 -->  <video id="clip-1" data-start="0" data-duration="5" data-track="0"    src="intro.mp4" muted playsinline></video>  <!-- 第 2 秒出现，叠加 3 秒 -->  <img id="overlay" data-start="2" data-duration="3" data-track="1" src="logo.png" />  <!-- 背景音乐，音量 50% -->  <audio id="bg-music" data-start="0" data-duration="9" data-track="2"    data-volume="0.5" src="music.wav"></audio></div>

复制代码

就这样。一个普通的 HTML 文件，加上几个 data-start、data-duration、data-track 属性，就定义了一段包含视频、图层叠加、背景音乐的合成视频。

动画部分则交给 GSAP（GreenSock Animation Platform）------一个在前端开发中广泛使用的动画库------来处理。开发者用 GSAP 的 timeline API 定义元素的入场、停留和退场动画，框架负责把这些动画与视频时间轴精确同步，最终渲染为 MP4 文件。

三步工作流

复制代码

npx hyperframes init my-video   # 初始化项目
npx hyperframes preview          # 在浏览器中实时预览
npx hyperframes render           # 渲染输出为 MP4

渲染引擎底层使用 Puppeteer（无头浏览器）逐帧截图，再通过 FFmpeg 编码合成音视频。技术路径完全开源，没有黑盒。

AI 优先设计：不是"支持 AI"，而是"为 AI 而造"

这一点是 HyperFrames 真正区别于其他视频框架的地方。

Skills 系统

框架内置了一套叫做 "Skills" 的机制------本质上是一批专门写给 AI 智能体的"使用说明书"，用来教会 Claude Code、Cursor、Gemini CLI 等工具如何正确编写 HyperFrames 合成文件。

安装命令：

复制代码

npx hyperframes skills --claude   # 安装到 Claude Code
npx hyperframes skills --cursor   # 安装到 Cursor

安装后，AI 编码助手会自动获得框架的使用规范，包括：HTML 合成结构的正确写法、data- 属性的使用规则、时间轴注册方式、渲染约束（例如禁止使用随机数，所有动画必须是确定性的）等。

这意味着，你可以直接对 Claude Code 说："帮我做一个产品发布的宣传短视频，开头是 Logo 动画，然后展示三个核心功能，最后是 Call to Action"，AI 会真正理解框架的规则，生成可以直接渲染的代码。

确定性渲染

这是 AI 视频生成中一个常被忽略的关键问题：输出必须可复现。

HyperFrames 对此有明确的强制规定------框架内禁止使用 Math.random()、Date.now() 或任何基于时间的逻辑。相同的 HTML 输入，必须产生完全相同的视频输出。

这个设计让 HyperFrames 可以无缝嵌入自动化的内容生产流水线------今天渲染的结果和三个月后用同一份代码渲染的结果，逐帧完全一致。

技术架构一览

HyperFrames 是一个 monorepo，由多个职责清晰的包组成：

运行要求：Node.js ≥ 22，FFmpeg。

视觉设计：框架也有"审美规范"

令人意外的是，HyperFrames 不只是一个渲染引擎，它还内置了一套完整的视觉设计体系。

框架提供了 8 种命名视觉风格预设，包括：

Swiss Pulse------瑞士风格，简洁几何
Velvet Standard------奢华质感
Data Drift------数据可视化风格
Shadow Cut------高对比度暗黑风格

每种风格都包含颜色方案（精确到 hex 值）、字体搭配建议、GSAP 缓动签名，以及禁止使用的反模式清单。

这意味着，当你让 AI 生成一个"瑞士风格"的产品介绍视频时，它不需要从零发明审美，而是直接调用框架预定义的设计规范。

实际应用场景

基于 HyperFrames 的设计哲学，它最适合这些场景：

内容自动化生产：电商平台的商品介绍视频、新闻资讯的可视化短片、数据报告的动态呈现------这些需要大批量、模板化生产的视频，可以完全交给 AI 智能体通过 HyperFrames 自动生成。

AI Agent 工作流：与 MCP（Model Context Protocol）集成后，HyperFrames 可以成为多智能体工作流的一个节点，接收上游的文案、数据，输出渲染好的视频文件。

开发者视频工具：对于有编程背景的内容创作者，HyperFrames 提供了比传统剪辑软件更精确、更可版本控制的视频创作方式。

需要注意的局限

诚实地说，HyperFrames 目前仍处于早期阶段（当前版本 v0.2.2），存在一些现实限制：

渲染性能

：基于截图的渲染方式比原生视频编码慢，不适合需要实时输出的场景
复杂特效

：高度复杂的粒子效果、3D 渲染等场景，仍需借助专业工具
学习曲线

：对于完全没有前端开发背景的用户，HTML + GSAP 的组合仍有一定门槛

结语：一个关于"语言"的押注

HyperFrames 本质上是一个关于"语言"的押注------押注 HTML 将成为 AI 时代视频内容的通用描述语言。

这个押注不是没有道理。HTML 有着数十年的生态积累，是互联网上最普遍的结构化语言；它对 AI 来说几乎没有学习门槛；它可以被版本控制、被 diff、被协作编辑。

当 AI 开始大规模参与内容生产，我们需要的，也许不是一个"更智能的视频剪辑软件"，而是一个从一开始就为机器设计的视频描述格式。

HyperFrames 给出了一个值得关注的答案。

复制代码

更多transformer，VIT，swin tranformer
参考头条号：人工智能研究所
v号：人工智能研究Suo, 启示AI科技

动画详解transformer 在线视频教程