AI-ViewNote:把网课和会议视频自动卷成结构化笔记

文章目录

开源地址https://github.com/liangbm3/AI-ViewNote (欢迎提 Issue 和 PR,求个 Star ⭐)

平时看网课、看技术分享视频或者开长会,最大的痛点就是记笔记太费劲。边看边暂停截图打字,不仅效率极低,思路还容易被打断。市面上的录音转文字工具要么收费太贵,要么只能干巴巴地转成一坨毫无排版的长文本,不符合我们整理知识的习惯。

为了解决自己平时看视频学习的痛点,我干脆自己动手搓了一个开源的桌面端工具------AI-ViewNote

这是一款基于 Wails v3 构建的现代化桌面应用。核心思路很简单:本地提取音频 -> 云端/本地 ASR 语音识别 -> LLM 大模型提炼结构化笔记。最关键的是,支持完全自定义接入大模型 API,你的数据和钱包完全自己说了算。

核心特性与工作流

相比于网页端的工具,做成桌面端最大的好处就是处理本地音视频文件更加方便,不需要把动辄几个 G 的视频上传到服务器。

1. 强悍的本地媒体处理

底层集成了 FFmpeg,支持各种主流音视频格式的快速转换和音频提取。不管你是 MP4、MKV 还是直接录音的格式,直接拖进去就能跑。

2. 灵活的 ASR(语音转写)接入

语音识别没有做死在某一家厂商上。你可以在后台自由配置火山引擎、讯飞听见或者 Google Cloud 等接口。哪家便宜、哪家准确率高就用哪家,完全丰俭由人。现在各家的 ASR 准确率基本都能做到 95% 以上,为后续的 AI 处理打下了很好的底子。

3. LLM 智能笔记生成(这才是灵魂)

拿到转写的长文本后,如果只是看错别字满天飞的字幕是很难受的。AI-ViewNote 接入了大语言模型来进行内容理解和重构。你可以填入 OpenAI、Kimi、豆包、DeepSeek 或任何兼容 OpenAI 格式的 API Key。

针对不同的使用场景,系统预设了不同的 Prompt 风格,一键输出你要的排版:

  • 知识笔记风格 :自动提取核心概念,按层级生成 Markdown 列表,适合硬核学习。

  • 小红书风格 :带 Emoji,重点突出,适合做自媒体内容提炼。

  • 公众号风格 :段落分明,适合长图文阅读。

  • 内容总结风格 :快速过一遍会议纪要或太长不看的废话视频。

踩坑与技术选型:为什么是 Wails v3 + Go?

做桌面端应用,很多人第一时间会想到 Electron,但为了追求更小的打包体积和更低的内存占用,AI-ViewNote 选择了 Wails v3 + Go 作为底层架构。前端则使用了 React + TypeScript + Vite + Tailwind CSS,主打一个干净利落。

开发过程中也踩了一些坑,顺便分享一下经验:

  • Wails v3 的跨进程通信 (IPC):相比 v2 版本,v3 的 API 更加现代化,但在 Go 后端和 React 前端频繁传递大量文本(比如长视频转写结果)时,依然要注意数据序列化的性能开销。
  • Go 调用 FFmpeg :在 Go 后端通过 os/exec 调用 FFmpeg 提取音频时,需要特别注意跨平台路径处理和命令执行的上下文控制,防止出现僵尸进程。
  • 状态同步:为了让用户在界面上能实时看到转写和 AI 处理的进度条,Go 后端需要通过事件系统(Events)高频向前端推送状态更新。

生成的笔记支持直接导出 Markdown 或者字幕文件,方便丢到 Obsidian 或 Notion 里做二次管理。最近的版本还加上了任务栏折叠等小优化,提升了后台挂机运行的体验。

为什么选择开源?

总结起来就是四个字:开放、自由

现在大模型的 API 价格都在疯狂内卷,几毛钱就能跑上百万 token,自己配置 API 约等于免费用。AI-ViewNote 采用 MIT 协议开源,没有烦人的订阅弹窗,没有高级功能解锁收费。你可以把它当作一个纯粹的生产力工具,也可以 clone 下来自己魔改,加一些你需要的特殊功能。

如果你也经常需要啃生肉视频、看长篇讲座,或者需要整理会议录音,欢迎下载体验一下 AI-ViewNote。如果有 bug 或者新需求,随时在 GitHub 上滴滴我。

未来开发计划

  • 支持更多厂商的API
  • 支持自定义prompt和标签
  • 优化工作流和用户体验
相关推荐
AI、少年郎1 小时前
MiniMind 第 4 篇:《数据工程|Tokenizer 训练 + 预训练 / SFT/DPO 全数据集处理》
人工智能·python·ai·大模型·微调·大模型训练·minimind
Go_error2 小时前
Go 并发控制 Wait & Cancel
后端·go
阿杰学AI3 小时前
AI核心知识121—大语言模型之 基于人类反馈的强化学习 (简洁且通俗易懂版)
人工智能·深度学习·ai·语言模型·强化学习·奖励模型·rm
GEO索引未来3 小时前
为什么做GEO需要一套好的数据系统?
大数据·人工智能·ai·chatgpt·googlecloud
军军君013 小时前
数字孪生监控大屏实战模板:空气污染监控
前端·javascript·vue.js·typescript·前端框架·echarts·数字孪生
鸿乃江边鸟4 小时前
Nanobot 从 Channel 消息处理看python协程的使用
人工智能·ai·协程
@atweiwei4 小时前
LangChainRust:用 Rust 构建高性能 LLM 应用的完整指南
开发语言·人工智能·ai·rust·大模型·llm·agent
莹宝思密达4 小时前
【AI】chrome-dev-tools-mcp
前端·ai
fanstuck5 小时前
当 openClaw 遇上 EdgeOne Pages:不只智能问数,更能直接获取BI 数据大屏(附工程落地实战)
人工智能·ai·aigc·openclaw
cy_cy0025 小时前
解析数字科技展厅的多元展示手段
大数据·科技·人机交互·交互·软件构建