Claude + HyperFrames:用 HTML 方式制作视频,AI 时代一切皆可 HTML?

HeyGen 是什么

一句话总结:HeyGen 是一个"AI 视频 + AI 数字人"在线平台,主要帮你快速生成带数字人出镜的视频,以及把已有视频翻译成多语言并做对口型配音。

HeyGen能做什么?

文本 → 视频:你写文案/脚本,选择一个数字人(AI Avatar),它自动生成带画面、配音、字幕、背景等的成片视频。

照片 → 视频:上传照片,输入台词,照片"开口说话",带对口型和手势。

自己的"数字分身":录一段自己说话的视频,生成一个外观和声音都很像你的数字人(Digital Twin),以后用它代替你出镜。

视频翻译:上传视频或粘贴 YouTube 链接,选择目标语言,平台会翻译语音并做 AI 对口型、克隆原声音、自动生成多语种字幕,官方号称支持 175+ 语言与方言。

广告/UGC 内容生成:产品图 + 文案 → 由数字人把产品"拿在手里"讲解;也可批量生成短视频平台风格的 UGC/口播类内容。

团队/企业使用:提供多账号协作、品牌资产管理、SCORM 导出、LMS 集成、互动视频(测验、分支跳转)等企业级能力,并有 API 可集成到自有系统

HeyGen 平台也可以根据 prompt 来制作视频,但是额度有限,而HeyGen开源了HyperFrames skills,让你也可以在 Claude code,opencode 以及 cursor 等等 agent 框架下,免费制作 HTML 视频

一句话说清楚HyperFrames是什么

Write HTML. Render video.(写 HTML,渲染视频。)

这是 HyperFrames 在 GitHub 上的官方 Slogan,简单得有些暴力------但背后藏着一个真正颠覆性的思路:把 HTML 文件当作视频的"源代码",让 AI 智能体像写网页一样去"编写"视频。

这个框架由 AI 视频公司 HeyGen 开源,仓库地址为 github.com/heygen-com/hyperframes,发布仅十余天,在 skills.sh 平台上的周安装量已超过 1,600 次,覆盖 Claude Code、Cursor、Gemini CLI 等主流 AI 编码工具。


为什么视频制作需要一场"范式转移"?

在聊 HyperFrames 之前,我们需要先理解现有视频制作工具的核心矛盾。

当前市面上的视频制作工具,无论是 After Effects、Premiere,还是面向开发者的 Remotion(React 渲染视频),设计上都是以"人类为中心"的。它们的界面、语言、逻辑,都预设了一个坐在屏幕前的人类操作者。

但 AI 时代来了,局面变了。

大语言模型天然地"会"写 HTML,经过数十亿网页的训练,HTML、CSS、JavaScript 已经是它们最熟悉的语言。如果我们能让 AI 用它最擅长的语言------HTML------来描述一段视频,然后把渲染的脏活交给框架去做,这条路是不是更顺畅?

HyperFrames 的核心设计理念,就建立在这个洞察之上:HTML 是视频内容的真正来源(source of truth)


它到底怎么工作?

核心机制:data 属性即时间轴

HyperFrames 的革命性在于,它用 HTML 的 data-* 属性来描述视频的时序和轨道信息。看一段示例代码:

复制代码
<div id="stage" data-composition-id="my-video" data-start="0" data-width="1920" data-height="1080">  <!-- 第 0 秒开始播放,持续 5 秒 -->  <video id="clip-1" data-start="0" data-duration="5" data-track="0"    src="intro.mp4" muted playsinline></video>  <!-- 第 2 秒出现,叠加 3 秒 -->  <img id="overlay" data-start="2" data-duration="3" data-track="1" src="logo.png" />  <!-- 背景音乐,音量 50% -->  <audio id="bg-music" data-start="0" data-duration="9" data-track="2"    data-volume="0.5" src="music.wav"></audio></div>
复制代码

就这样。一个普通的 HTML 文件,加上几个 data-start、data-duration、data-track 属性,就定义了一段包含视频、图层叠加、背景音乐的合成视频。

动画部分则交给 GSAP(GreenSock Animation Platform)------一个在前端开发中广泛使用的动画库------来处理。开发者用 GSAP 的 timeline API 定义元素的入场、停留和退场动画,框架负责把这些动画与视频时间轴精确同步,最终渲染为 MP4 文件。

三步工作流

复制代码
npx hyperframes init my-video   # 初始化项目
npx hyperframes preview          # 在浏览器中实时预览
npx hyperframes render           # 渲染输出为 MP4

渲染引擎底层使用 Puppeteer(无头浏览器)逐帧截图,再通过 FFmpeg 编码合成音视频。技术路径完全开源,没有黑盒。


AI 优先设计:不是"支持 AI",而是"为 AI 而造"

这一点是 HyperFrames 真正区别于其他视频框架的地方。

Skills 系统

框架内置了一套叫做 "Skills" 的机制------本质上是一批专门写给 AI 智能体的"使用说明书",用来教会 Claude Code、Cursor、Gemini CLI 等工具如何正确编写 HyperFrames 合成文件。

安装命令:

复制代码
npx hyperframes skills --claude   # 安装到 Claude Code
npx hyperframes skills --cursor   # 安装到 Cursor

安装后,AI 编码助手会自动获得框架的使用规范,包括:HTML 合成结构的正确写法、data- 属性的使用规则、时间轴注册方式、渲染约束(例如禁止使用随机数,所有动画必须是确定性的)等。

这意味着,你可以直接对 Claude Code 说:"帮我做一个产品发布的宣传短视频,开头是 Logo 动画,然后展示三个核心功能,最后是 Call to Action",AI 会真正理解框架的规则,生成可以直接渲染的代码。

确定性渲染

这是 AI 视频生成中一个常被忽略的关键问题:输出必须可复现

HyperFrames 对此有明确的强制规定------框架内禁止使用 Math.random()、Date.now() 或任何基于时间的逻辑。相同的 HTML 输入,必须产生完全相同的视频输出。

这个设计让 HyperFrames 可以无缝嵌入自动化的内容生产流水线------今天渲染的结果和三个月后用同一份代码渲染的结果,逐帧完全一致。


技术架构一览

HyperFrames 是一个 monorepo,由多个职责清晰的包组成:

运行要求:Node.js ≥ 22,FFmpeg。


视觉设计:框架也有"审美规范"

令人意外的是,HyperFrames 不只是一个渲染引擎,它还内置了一套完整的视觉设计体系

框架提供了 8 种命名视觉风格预设,包括:

  • Swiss Pulse------瑞士风格,简洁几何
  • Velvet Standard------奢华质感
  • Data Drift------数据可视化风格
  • Shadow Cut------高对比度暗黑风格

每种风格都包含颜色方案(精确到 hex 值)、字体搭配建议、GSAP 缓动签名,以及禁止使用的反模式清单。

这意味着,当你让 AI 生成一个"瑞士风格"的产品介绍视频时,它不需要从零发明审美,而是直接调用框架预定义的设计规范。


实际应用场景

基于 HyperFrames 的设计哲学,它最适合这些场景:

内容自动化生产:电商平台的商品介绍视频、新闻资讯的可视化短片、数据报告的动态呈现------这些需要大批量、模板化生产的视频,可以完全交给 AI 智能体通过 HyperFrames 自动生成。

AI Agent 工作流:与 MCP(Model Context Protocol)集成后,HyperFrames 可以成为多智能体工作流的一个节点,接收上游的文案、数据,输出渲染好的视频文件。

开发者视频工具:对于有编程背景的内容创作者,HyperFrames 提供了比传统剪辑软件更精确、更可版本控制的视频创作方式。


需要注意的局限

诚实地说,HyperFrames 目前仍处于早期阶段(当前版本 v0.2.2),存在一些现实限制:

  • 渲染性能

    :基于截图的渲染方式比原生视频编码慢,不适合需要实时输出的场景

  • 复杂特效

    :高度复杂的粒子效果、3D 渲染等场景,仍需借助专业工具

  • 学习曲线

    :对于完全没有前端开发背景的用户,HTML + GSAP 的组合仍有一定门槛


结语:一个关于"语言"的押注

HyperFrames 本质上是一个关于"语言"的押注------押注 HTML 将成为 AI 时代视频内容的通用描述语言。

这个押注不是没有道理。HTML 有着数十年的生态积累,是互联网上最普遍的结构化语言;它对 AI 来说几乎没有学习门槛;它可以被版本控制、被 diff、被协作编辑。

当 AI 开始大规模参与内容生产,我们需要的,也许不是一个"更智能的视频剪辑软件",而是一个从一开始就为机器设计的视频描述格式。

HyperFrames 给出了一个值得关注的答案。

复制代码
更多transformer,VIT,swin tranformer
参考头条号:人工智能研究所
v号:人工智能研究Suo, 启示AI科技

动画详解transformer 在线视频教程

相关推荐
byte轻骑兵1 天前
从收音机到蓝牙:LE Audio核心BASS服务解析与实战
人工智能·音视频·语音识别·le audio·低功耗音频
饭后一颗花生米1 天前
2026 AI加持下前端学习路线:从入门到进阶,高效突破核心竞争力
前端·人工智能·学习
默 语1 天前
“我跑不过我的代码“:今天北京半马,程序员追机器人追到开电瓶车
人工智能·机器人·openclaw
AC赳赳老秦1 天前
HR必备:OpenClaw批量筛选简历、发送面试通知,优化招聘流程
运维·人工智能·python·eclipse·github·deepseek·openclaw
GreenTea1 天前
Deep Dive into Claude Code:源码泄漏引发的AI Agent架构全解析
前端·人工智能·后端
圊妖1 天前
Claude Code 一些进阶用法
人工智能·ai编程·claude
颜酱1 天前
从零实现「拍照记单词」小应用(可复刻版)
前端·javascript·人工智能
大猫会长1 天前
AudioContext给音频提高音量
前端·javascript·音视频