AI-ViewNote：把网课和会议视频自动卷成结构化笔记

- 核心特性与工作流
- [踩坑与技术选型：为什么是 Wails v3 + Go？](#踩坑与技术选型：为什么是 Wails v3 + Go？)
- 为什么选择开源？
- 未来开发计划

开源地址 ：https://github.com/liangbm3/AI-ViewNote （欢迎提 Issue 和 PR，求个 Star ⭐）

平时看网课、看技术分享视频或者开长会，最大的痛点就是记笔记太费劲。边看边暂停截图打字，不仅效率极低，思路还容易被打断。市面上的录音转文字工具要么收费太贵，要么只能干巴巴地转成一坨毫无排版的长文本，不符合我们整理知识的习惯。

为了解决自己平时看视频学习的痛点，我干脆自己动手搓了一个开源的桌面端工具------AI-ViewNote。

这是一款基于 Wails v3 构建的现代化桌面应用。核心思路很简单：本地提取音频 -> 云端/本地 ASR 语音识别 -> LLM 大模型提炼结构化笔记。最关键的是，支持完全自定义接入大模型 API，你的数据和钱包完全自己说了算。

相比于网页端的工具，做成桌面端最大的好处就是处理本地音视频文件更加方便，不需要把动辄几个 G 的视频上传到服务器。

1. 强悍的本地媒体处理

底层集成了 FFmpeg，支持各种主流音视频格式的快速转换和音频提取。不管你是 MP4、MKV 还是直接录音的格式，直接拖进去就能跑。

2. 灵活的 ASR（语音转写）接入

语音识别没有做死在某一家厂商上。你可以在后台自由配置火山引擎、讯飞听见或者 Google Cloud 等接口。哪家便宜、哪家准确率高就用哪家，完全丰俭由人。现在各家的 ASR 准确率基本都能做到 95% 以上，为后续的 AI 处理打下了很好的底子。

3. LLM 智能笔记生成（这才是灵魂）

拿到转写的长文本后，如果只是看错别字满天飞的字幕是很难受的。AI-ViewNote 接入了大语言模型来进行内容理解和重构。你可以填入 OpenAI、Kimi、豆包、DeepSeek 或任何兼容 OpenAI 格式的 API Key。

针对不同的使用场景，系统预设了不同的 Prompt 风格，一键输出你要的排版：

做桌面端应用，很多人第一时间会想到 Electron，但为了追求更小的打包体积和更低的内存占用，AI-ViewNote 选择了 Wails v3 + Go 作为底层架构。前端则使用了 React + TypeScript + Vite + Tailwind CSS，主打一个干净利落。

开发过程中也踩了一些坑，顺便分享一下经验：

Wails v3 的跨进程通信 (IPC)：相比 v2 版本，v3 的 API 更加现代化，但在 Go 后端和 React 前端频繁传递大量文本（比如长视频转写结果）时，依然要注意数据序列化的性能开销。
Go 调用 FFmpeg ：在 Go 后端通过 os/exec 调用 FFmpeg 提取音频时，需要特别注意跨平台路径处理和命令执行的上下文控制，防止出现僵尸进程。
状态同步：为了让用户在界面上能实时看到转写和 AI 处理的进度条，Go 后端需要通过事件系统（Events）高频向前端推送状态更新。

生成的笔记支持直接导出 Markdown 或者字幕文件，方便丢到 Obsidian 或 Notion 里做二次管理。最近的版本还加上了任务栏折叠等小优化，提升了后台挂机运行的体验。

总结起来就是四个字：开放、自由。

现在大模型的 API 价格都在疯狂内卷，几毛钱就能跑上百万 token，自己配置 API 约等于免费用。AI-ViewNote 采用 MIT 协议开源，没有烦人的订阅弹窗，没有高级功能解锁收费。你可以把它当作一个纯粹的生产力工具，也可以 clone 下来自己魔改，加一些你需要的特殊功能。

如果你也经常需要啃生肉视频、看长篇讲座，或者需要整理会议录音，欢迎下载体验一下 AI-ViewNote。如果有 bug 或者新需求，随时在 GitHub 上滴滴我。