一键视频转文字／音频转文字，浏览器右键提取B站视频文案，不限时长免费无限次可用

上篇文章阿虚分享了自己的「短视频」笔记方案

短视频文件小，易存储，所以阿虚建议是直接将原视频插入到笔记当中

而长视频文件大，很难像短视频一样操作。阿虚之前的建议是提取重要部分视频转长截图，或者视频转GIF

但上述方案仔细思考，其实只适用于精记录

▲泛阅读

阿虚后来在实践中，发现我更多时候是需要泛记录------即我经常会去B站、抖音、小红书等找视频评测，我主要需要的是「结论」和具体「推荐某产品的原因」

由于每次研究可能都会查看、下载大量评测视频，这就导致精记录的方案不太实用了，太费时间！🤨

于是阿虚对于需要泛记录的视频，采取的主要方案是------视频转文字，记录全文

1 CapsWriter Offline

当然，视频转文字在现在并不是什么稀奇事，阿虚之前就已经分享过很多免费工具了

也包括基于 OpenAI 训练出来的 Whisper 语音识别模型而开发的 WhisperDesktop、Buzz 这类桌面客户端💻

但使用客户端免不了多次鼠标点击 ，再加上此前推荐的 WhisperDesktop、Buzz 效率并不是很高，说白了就是整个转换流程挺费时间的

而阿里开源语音识别工具 FunASR 的出现，让整个中文语音识别革命性的进化了 ❗ ❗ ❗

不仅识别准确，最关键是识别速度极快，应该是目前中文语音识别领域速度最快！30 分钟的视频转为文字大概只需要 15 秒！

而让 FunASR 更简单易用，又得多谢 HaujetZhao 大佬开发的 CapsWriter Offline 项目：https://github.com/HaujetZhao/CapsWriter-Offline

这个项目原本是作者开发的一个 PC 端离线语音输入工具，帮大家解决了语音识别模型＋标点符号添加模型调用的问题，即也算是有了可视化的软件界面

但就算这样，这个软件的使用也略显麻烦、费时：

需要先运行 start_server.exe 加载服务端（其会载入语音识别和添加标点模型，共占用约 2GB 内存），视个人电脑情况，一般加载需要20多秒
然后需要运行 start_client.exe 客户端才能看到下图软件界面，然后拖入音频、视频才能实现快速转文字（服务端只需启动一次，后续不必再等待20多秒）

但这个项目好就好在，软件的实际使用中，客户端不是必要的，启动服务端之后我们可以直接通过命令行来调用软件------这也是阿虚能借机发挥的原因😏

阿虚在原有软件的基础上：略微修改了原项目代码，另外用 AHK 写了一个辅助小程序，然后再写了一个增删右键菜单的小脚本

⚠️⚠️⚠️⚠️⚠️⚠️⚠️⚠️⚠️⚠️⚠️⚠️⚠️⚠️⚠️

软件下载地址 ，微信内打开文章见置顶留言：一键视频转文字！本地、在线视频均支持，离线模型免费无限可用

⚠️⚠️⚠️⚠️⚠️⚠️⚠️⚠️⚠️⚠️⚠️⚠️⚠️⚠️⚠️

在阿虚改善之后， CapsWriter Offline 便可能算的上当今最简单易用的 Windows 语音识别工具了！

在阿虚改善之后， CapsWriter Offline 便可能算的上当今最简单易用的 Windows 语音识别工具了！💪

WIN10以上电脑可用，软件无需安装，解压即用
解压出来，双击运行 .bat 文件即可添加／删除右键菜单
随后就能如下图这样，在常见音频、视频文件上，直接右键使用了

不过这里需要特别说明一下：

右键执行后，软件全程会静默执行，即前台不会有任何界面弹窗！耐心等待 20 多秒加载模型文件，再耐心等待10多20秒（视处理视频时长），就能完成文件处理，在源视频同目录下生成转换好的 txt 文本文件
同时在每次使用过程中，只有处理的第一个视频需要等待 20 多秒加载模型，后续则均是直接开始处理视频文件
另外由于软件服务端在后台会占用约 2GB 系统内存，如果后续不需要继续处理视频，可以通过右键系统托盘图标来退出后台服务端
CapsWriter 基于 FunASR 模型，所以只支持处理中、英两种语言！

实际使用效果就如下图，全程除了略需等待（转换多个视频也就第一个需要多等待20多秒），整个转换操作几乎无感

拿到视频的 txt 文字稿之后，再贴上视频链接，辅以重点视频片段截图，于是乎就能像阿虚下图这样，很快速的完成一篇涵盖多个视频内容的评测视频调研笔记了~🧐

2 ContextSearch

本地视频语音识别转文字问题基本已完美解决

但阿虚后续实际做视频笔记时候发现：我还是得先用 IDM 或者专用下载器，将视频下载到本地之后，多次点击找到视频所在文件夹，再右键进行转换------就还是有挺多步骤、不够优雅

▲还不够优雅~

还有没有办法省下多次键盘鼠标操作，一键完成在线视频转文字呢？

这里终于又可以搬出阿虚之前就大力推荐过的浏览器扩展了------ContextSearch

ContextSearch 是一款能实现在网页上一键调用命令行工具的扩展

考虑到文章篇幅，ContextSearch 的前期安装与配置这里就略过，请各位去复习上述文章👆

光有 ContextSearch 还不够，我们还得辅以开源下载神器 yt-dlp：https://github.com/yt-dlp/yt-dlp

yt-dlp 是一个功能丰富的命令行音频／视频下载器，支持数千个网站解析下载，B站、小红书、微博、知乎等常见视频平台都支持一键下载（注：目前不支持抖音）

2.1 使用效果

有了 ContextSearch＋yt-dlp 的体验如何呢？

如下图，仅需在想要转文字的视频上右键，短一点的视频，10多秒即可完成视频转文字，并将结果复制到剪贴~

至此，对于 B站等网站的在线视频一键转文字体验可谓完美~

2.2 配置方法

那想要实现上图效果如何配置呢？

也不算复杂，首先我们打开 yt-dlp 项目官网，下载最新的 yt-dlp.exe 文件：https://github.com/yt-dlp/yt-dlp/releases

如果你访问Github困难，建议了解《Github加速访问教程》

然后，如果你之前学习过阿虚的任意WIN+R 使用教程（👈点击即可查看），配置过快速启动文件夹到系统环境，那就只需要把下载到的 yt-dlp.exe 扔进你的快速启动文件夹即可

不过，就算你目前完全不懂 WIN+R，也只需按下述操作即可轻松用上今天分享的工具

首先是按下键盘上的 WIN+R 键打开运行窗口

然后在英文输入法状态下输入一个 .（或者%USERPROFiiE%），然后回车，进入你的电脑用户目录

将上面获取的 yt-dlp.exe 文件放到打开的文件夹里面，也是可以的

然后我们打开 ContextSearch 的扩展选项，新建一个应用启动器，按下图进行配置即可（ContextSearch 配置教程点击这里查看）

特别注意，荧光黄处需要自行替换为你 CapsWriter 文件所在路径**（注：这部分代码借用了隔壁@奔跑中的奶酪）**：

复制代码

tasklist /FI "IMAGENAME eq start_server.exe" 2>NUL | find /I /N "start_server.exe" >NUL || explorer "C:\Portable\CapsWriter\start_server.exe" & start "" cmd /c yt-dlp --output "../../../Downloads/Video/%(title)s.%(ext)s" --merge-output-format mp4 --no-mtime --exec "C:\Portable\CapsWriter\start_client.exe" "{searchTerms}"

最后再说明一下，通过上述代码实际执行的操作是：

先调用 yt-dlp 解析下载视频到系统 Downloads 文件夹中的 Video 文件夹
然后再调用 CapsWriter 语音识别下载好的视频文件，转为文字，内容存储在 txt 文件中

所以，如果你后续不需要这些下载好的视频、处理好的文本文件，需自行打开文件夹删除！

如果大家对阿虚的笔记方案感兴趣，相关文章我已经都整理到储物间（axutongxue.ysepan.com）8－2栏了，大家可以自行学习

当然，我只能给大家分享工具，提升效率

最关键的，还是要自己动手记录！

视频收藏了，不等于看过了

只有自己整理，记录了，它才真正属于你

希望大家保持记录，永远在学习的路上！