今天给大家安利下自己的开发,使用频率特别高的一个 Skill -- 通用视频解析。
视频作为当下最流行的媒体,优秀作品无数,但它也有一个缺点,与其他媒体相比,观众需要投入更多的时间去获得视频的表达,毕竟人人的时间都很宝贵,这也是近几年短视频逐渐流行的原因。
对于很多人来说,仍需要不观看且快速的了解视频的内容,比如图文/文本创作者、不方便播放场合想了解/学习一个视频、想快速的了解一个专业的视频知识、需要打印出来而非播放的场景以及视频创作者在其他文字平台发表同一个作品等等。

在我的 Skill 设计哲学里,有几个要点:
- 职责单一
- 尽可能的通用
- 尽可能的少一些限制,没有使用心智负担
- 不影响宿主
- 运行稳定(重中之重)
那对于一个视频解析 Skill 来讲则对应着
- 它只做视频 --> 文本(字幕)的转换,不会涉及什么点赞、浏览数,作者观点总结等等额外的工作。
- 使用者无需考虑来自哪个平台、无需考虑在线视频/离线视频、无需考虑视频格式等等条件,只要手上有一个视频无论它是什么,直接把视频丢过来。
- 一站式检查、安装依赖,无需用户手动
- 解析工作运行时不会限制宿主的电脑运行,不会控制用户的浏览器等,用户无感知
- 多降级方案,优先拿官方/人工的,拿不到则自己转录,出错后争取的错误反馈
怀着这样的原则,我开发了video-subtitle-parser这个 Skill。

一个小瑕疵
视频解析一旦降级为 ASR 转录,会有错别字的问题,这就跟我们常用的语音转文字是一样的道理,通用的表达没有什么问题,但一些项目术语、方言、人名等时难免会错误。
比如我用它转录一个《剑来》第二季的解析视频,"阮秀"就给我转成"软秀","宁姚"给转成了"逆瑶"。
为此,我设计了一个参数 --term-file,你可以提前把你认为的 AI 无法识别的词传进去(当然这个任务无需你手动,让你的 Agent 做就好),这样可一定程度上避免这个问题。
我开了这个口子,是因为 Agent 可以帮我们做这件事,但我却不推荐大家这么做,原因很简单,你无法预知全部的异常词,也会增加这个 skill 的使用负担,因此,我更推荐的做法是使用 Skill 转录之后,再让 AI 检查修改一遍,通常来说基于上下文的二次修正效果会好很多。
当然,以上行为只是尽可能的减轻这个问题,出于严谨的考虑,你仍然需要亲子检查。
最后,大家不要拿这个 Skill 去乱用,这个工具只是提供能力
请把这个工具用于正当的个人学习、研究和内容整理场景。比如:不方便看视频时提取文字来学习知识,把自己的视频素材整理成可检索笔记,或者为图文类自媒体工作收集参考素材。
请尊重版权、平台规则和原作者劳动成果。不要把转写稿、总结、截图或派生素材用于完整复刻他人成果,不要冒充原创,不要绕过署名和授权,更不要在未获得必要权利的情况下用于商业发布或商业变现。
重要:因使用者对产物的保存、改写、发布、传播、商用或其他后续行为产生的版权、平台、商业或法律纠纷,均由使用者自行承担,与本工具及维护者无关。
跟我之前开源那个手绘风格库一样,我有条铁律,自己没用过、没验证过的东西,绝不会拿出来分享给兄弟们。
github:github.com/threerocks/...