AI-ViewNote:把网课和会议视频自动卷成结构化笔记

文章目录

开源地址https://github.com/liangbm3/AI-ViewNote (欢迎提 Issue 和 PR,求个 Star ⭐)

平时看网课、看技术分享视频或者开长会,最大的痛点就是记笔记太费劲。边看边暂停截图打字,不仅效率极低,思路还容易被打断。市面上的录音转文字工具要么收费太贵,要么只能干巴巴地转成一坨毫无排版的长文本,不符合我们整理知识的习惯。

为了解决自己平时看视频学习的痛点,我干脆自己动手搓了一个开源的桌面端工具------AI-ViewNote

这是一款基于 Wails v3 构建的现代化桌面应用。核心思路很简单:本地提取音频 -> 云端/本地 ASR 语音识别 -> LLM 大模型提炼结构化笔记。最关键的是,支持完全自定义接入大模型 API,你的数据和钱包完全自己说了算。

核心特性与工作流

相比于网页端的工具,做成桌面端最大的好处就是处理本地音视频文件更加方便,不需要把动辄几个 G 的视频上传到服务器。

1. 强悍的本地媒体处理

底层集成了 FFmpeg,支持各种主流音视频格式的快速转换和音频提取。不管你是 MP4、MKV 还是直接录音的格式,直接拖进去就能跑。

2. 灵活的 ASR(语音转写)接入

语音识别没有做死在某一家厂商上。你可以在后台自由配置火山引擎、讯飞听见或者 Google Cloud 等接口。哪家便宜、哪家准确率高就用哪家,完全丰俭由人。现在各家的 ASR 准确率基本都能做到 95% 以上,为后续的 AI 处理打下了很好的底子。

3. LLM 智能笔记生成(这才是灵魂)

拿到转写的长文本后,如果只是看错别字满天飞的字幕是很难受的。AI-ViewNote 接入了大语言模型来进行内容理解和重构。你可以填入 OpenAI、Kimi、豆包、DeepSeek 或任何兼容 OpenAI 格式的 API Key。

针对不同的使用场景,系统预设了不同的 Prompt 风格,一键输出你要的排版:

  • 知识笔记风格 :自动提取核心概念,按层级生成 Markdown 列表,适合硬核学习。

  • 小红书风格 :带 Emoji,重点突出,适合做自媒体内容提炼。

  • 公众号风格 :段落分明,适合长图文阅读。

  • 内容总结风格 :快速过一遍会议纪要或太长不看的废话视频。

踩坑与技术选型:为什么是 Wails v3 + Go?

做桌面端应用,很多人第一时间会想到 Electron,但为了追求更小的打包体积和更低的内存占用,AI-ViewNote 选择了 Wails v3 + Go 作为底层架构。前端则使用了 React + TypeScript + Vite + Tailwind CSS,主打一个干净利落。

开发过程中也踩了一些坑,顺便分享一下经验:

  • Wails v3 的跨进程通信 (IPC):相比 v2 版本,v3 的 API 更加现代化,但在 Go 后端和 React 前端频繁传递大量文本(比如长视频转写结果)时,依然要注意数据序列化的性能开销。
  • Go 调用 FFmpeg :在 Go 后端通过 os/exec 调用 FFmpeg 提取音频时,需要特别注意跨平台路径处理和命令执行的上下文控制,防止出现僵尸进程。
  • 状态同步:为了让用户在界面上能实时看到转写和 AI 处理的进度条,Go 后端需要通过事件系统(Events)高频向前端推送状态更新。

生成的笔记支持直接导出 Markdown 或者字幕文件,方便丢到 Obsidian 或 Notion 里做二次管理。最近的版本还加上了任务栏折叠等小优化,提升了后台挂机运行的体验。

为什么选择开源?

总结起来就是四个字:开放、自由

现在大模型的 API 价格都在疯狂内卷,几毛钱就能跑上百万 token,自己配置 API 约等于免费用。AI-ViewNote 采用 MIT 协议开源,没有烦人的订阅弹窗,没有高级功能解锁收费。你可以把它当作一个纯粹的生产力工具,也可以 clone 下来自己魔改,加一些你需要的特殊功能。

如果你也经常需要啃生肉视频、看长篇讲座,或者需要整理会议录音,欢迎下载体验一下 AI-ViewNote。如果有 bug 或者新需求,随时在 GitHub 上滴滴我。

未来开发计划

  • 支持更多厂商的API
  • 支持自定义prompt和标签
  • 优化工作流和用户体验
相关推荐
大家的林语冰2 小时前
TypeScript 6 官宣,JS “最后之舞“,版本升级踩雷指南
前端·javascript·typescript
爱学习的程序媛2 小时前
【WebRTC】呼叫中心前端技术选型:SIP.js vs JsSIP vs Verto
前端·javascript·typescript·音视频·webrtc·实时音视频·web
搜佛说2 小时前
13-第13章-自定义数据处理器开发
物联网·ai·开源·边缘计算
喵了几个咪2 小时前
GoWind Content Hub|风行,开箱即用的企业级前后端一体内容中台
vue.js·golang·react·taro
Java_ESS2 小时前
终端 AI 编程完全指南:Claude Code 和 OpenCode 深度使用教程
人工智能·ai·ai编程
roman_日积跬步-终至千里2 小时前
Harness Engineering(驾驭工程)初识
ai
AI精钢2 小时前
在生产环境进行 vibe coding 的正确方式
大数据·人工智能·ai·agent·claude·devops·cursor
biuba10242 小时前
18 openclaw事务管理:确保数据一致性的最佳实践
开发语言·ai·c#·编程·技术
岁岁种桃花儿3 小时前
AI超级智能开发系列从入门到上天第九篇:SpringAI搭建本地知识库
数据库·人工智能·ai·llm·智能体