文章目录
开源地址 :https://github.com/liangbm3/AI-ViewNote (欢迎提 Issue 和 PR,求个 Star ⭐)
平时看网课、看技术分享视频或者开长会,最大的痛点就是记笔记太费劲。边看边暂停截图打字,不仅效率极低,思路还容易被打断。市面上的录音转文字工具要么收费太贵,要么只能干巴巴地转成一坨毫无排版的长文本,不符合我们整理知识的习惯。
为了解决自己平时看视频学习的痛点,我干脆自己动手搓了一个开源的桌面端工具------AI-ViewNote。
这是一款基于 Wails v3 构建的现代化桌面应用。核心思路很简单:本地提取音频 -> 云端/本地 ASR 语音识别 -> LLM 大模型提炼结构化笔记。最关键的是,支持完全自定义接入大模型 API,你的数据和钱包完全自己说了算。
核心特性与工作流
相比于网页端的工具,做成桌面端最大的好处就是处理本地音视频文件更加方便,不需要把动辄几个 G 的视频上传到服务器。
1. 强悍的本地媒体处理
底层集成了 FFmpeg,支持各种主流音视频格式的快速转换和音频提取。不管你是 MP4、MKV 还是直接录音的格式,直接拖进去就能跑。

2. 灵活的 ASR(语音转写)接入
语音识别没有做死在某一家厂商上。你可以在后台自由配置火山引擎、讯飞听见或者 Google Cloud 等接口。哪家便宜、哪家准确率高就用哪家,完全丰俭由人。现在各家的 ASR 准确率基本都能做到 95% 以上,为后续的 AI 处理打下了很好的底子。
3. LLM 智能笔记生成(这才是灵魂)
拿到转写的长文本后,如果只是看错别字满天飞的字幕是很难受的。AI-ViewNote 接入了大语言模型来进行内容理解和重构。你可以填入 OpenAI、Kimi、豆包、DeepSeek 或任何兼容 OpenAI 格式的 API Key。
针对不同的使用场景,系统预设了不同的 Prompt 风格,一键输出你要的排版:
-
知识笔记风格 :自动提取核心概念,按层级生成 Markdown 列表,适合硬核学习。

-
小红书风格 :带 Emoji,重点突出,适合做自媒体内容提炼。

-
公众号风格 :段落分明,适合长图文阅读。

-
内容总结风格 :快速过一遍会议纪要或太长不看的废话视频。

踩坑与技术选型:为什么是 Wails v3 + Go?
做桌面端应用,很多人第一时间会想到 Electron,但为了追求更小的打包体积和更低的内存占用,AI-ViewNote 选择了 Wails v3 + Go 作为底层架构。前端则使用了 React + TypeScript + Vite + Tailwind CSS,主打一个干净利落。
开发过程中也踩了一些坑,顺便分享一下经验:
- Wails v3 的跨进程通信 (IPC):相比 v2 版本,v3 的 API 更加现代化,但在 Go 后端和 React 前端频繁传递大量文本(比如长视频转写结果)时,依然要注意数据序列化的性能开销。
- Go 调用 FFmpeg :在 Go 后端通过
os/exec调用 FFmpeg 提取音频时,需要特别注意跨平台路径处理和命令执行的上下文控制,防止出现僵尸进程。 - 状态同步:为了让用户在界面上能实时看到转写和 AI 处理的进度条,Go 后端需要通过事件系统(Events)高频向前端推送状态更新。

生成的笔记支持直接导出 Markdown 或者字幕文件,方便丢到 Obsidian 或 Notion 里做二次管理。最近的版本还加上了任务栏折叠等小优化,提升了后台挂机运行的体验。
为什么选择开源?
总结起来就是四个字:开放、自由。
现在大模型的 API 价格都在疯狂内卷,几毛钱就能跑上百万 token,自己配置 API 约等于免费用。AI-ViewNote 采用 MIT 协议开源,没有烦人的订阅弹窗,没有高级功能解锁收费。你可以把它当作一个纯粹的生产力工具,也可以 clone 下来自己魔改,加一些你需要的特殊功能。
如果你也经常需要啃生肉视频、看长篇讲座,或者需要整理会议录音,欢迎下载体验一下 AI-ViewNote。如果有 bug 或者新需求,随时在 GitHub 上滴滴我。
未来开发计划
- 支持更多厂商的API
- 支持自定义prompt和标签
- 优化工作流和用户体验