【十倍生产力】用Cursor+ChatGPT做技术调研,一天时间搞定Electron调用macOS OCR文字提取能力

用AI,一天7000行代码,实现一个完整的技术调研。

🐘 1. 起源

最近微信更新了,偶然间发现它的OCR文字提取从调接口改成本地做了。正好最近在开发Electron项目的OCR文字提取功能,于是一个新念头冒出来:

macOS 既然已经内置了 OCR 的能力(Vision 框架),那我们能不能在 Electron 桌面应用里,直接调系统 API,搞本地 OCR

想法是有了,问题是我没干过。


🧠 2. 技术方案怎么定?ChatGPT 给我指了三条路

我最开始是一脸懵的,毕竟是第一次干:

"在 Electron 项目里,用 Node 模块去调用 macOS 原生的 OCR 接口"。

不太熟苹果的原生开发,不懂 N-API,也没写过 binding.gyp,完全是空白。

所以我打开了我调研的秘密武器:Cursor + ChatGPT

我把需求一句话丢进去:

"我想在 Electron 应用里调用 macOS 的原生 OCR 接口,有什么实现方式?"

ChatGPT 马上给了我三个可行路径:

方案 A:用 Swift 写一个独立的小程序,再通过 IPC 和 Electron 通信

✅ 好处:开发简单,Swift 调系统接口熟练

❌ 缺点:多进程通信略复杂,跨语言维护难

方案 B:用 Python 或 AppleScript 调用 OCR,再和 Node 通信

✅ 好处:Python 写原型快

❌ 缺点:系统依赖太多,部署不方便

方案 C:写一个 Native Node 模块(C++ + Objective-C++ 混编)直接调 macOS API

✅ 好处:一体化集成,性能最好,最终可打包

❌ 缺点:门槛略高,要学 N-API 和 node-gyp

我权衡了一下,在大象项目中,只有 C 方案是可行的。


🛠 3. 从写代码到写文章,全流程都在 Cursor 里完成

整个 OCR 模块的开发和文档整理,我基本都在一个窗口里完成------Cursor 编辑器。它不仅是个写代码的 IDE,配合 ChatGPT,就像是带着 AI 导师一起远程 pair programming。

具体流程像这样:

✅ 写原生模块:C++ + Objective-C++ 混编没我想的那么可怕

我打开一个新 tab,让 Cursor 给我写出最小可运行的 macOS OCR 示例。Vision 框架用 VNRecognizeTextRequest。然后我按模块分文件拆开,写 improved_ocr_impl.mmimproved_node_binding.mm

有啥不会的(比如 autoreleasepool 是干啥的?为啥有 CFStringRef?)直接问。

✅ 配 binding.gyp + node-gyp 构建流程

node-gyp 是个典型的"配置一次就不想碰"的东西,尤其是 macOS 要加各种系统库引用。Cursor 里我直接问:

"我想编译这个 Objective-C++ 模块,需要链接 Vision 和 Foundation,binding.gyp 怎么写?"

Cursor 给出了一版最简模板,还加注释解释每一行什么意思。

配置好之后,我在 Terminal tab 里跑 node-gyp configure && node-gyp build,看到 .node 文件成功生成,和打游戏打通关一样爽。

✅ 集成到 Electron:直接 require,开箱即用

模块编译好之后,在 Electron 主进程里 require('./build/Release/improved_ocr.node') 就能用啦。封装了一层 ocr_module.js,暴露出 recognizeText(imagePath) 方法,渲染进程发个 IPC 消息就能调用。页面如下:

✅ 写总结文档?直接让 Cursor 读代码+对话自动帮我起草

做完技术方案,我还要写内部分享总结。换以前得翻对话记录、找代码截图、整理逻辑。现在直接在 Cursor 里新建一个 Markdown 文件,说一句话:

"请基于我们之前做的 macOS OCR 项目,整理一篇技术总结,包括背景、架构、关键模块、评估结论。"

Cursor 立刻开始生成结构,我只需要稍微改改措辞,半小时搞定一篇可发布的文档。

当然过程并不是一番风顺的,中间遇到了一些版本不兼容的问题,换着法问了好多次,最终一天用了100多个对话请求。


📄 4.总结

像这种完全没接触过的技术方向 ------调用 macOS 原生 API、用 C++ + Objective-C++ 混编做 Node 模块、再嵌入 Electron,我之前根本没干过。放在以前,光查资料、试方案、写 demo、整理文档,至少得一周。但这次不一样,靠着 Cursor + ChatGPT,一天就走完了整个流程。

代码仓库:github.com/LeiGitHub10...

相关推荐
梵得儿SHI11 分钟前
Vue 项目实战与性能优化全攻略:从代码、渲染到首屏,一站式解决卡顿慢加载
前端·vue.js·性能优化·vite·前端面试·前端优化·首屏优化
ShyanZh13 分钟前
【skill】HTML PPT Skill:用 Claude Code 一句话生成专业演示文稿
前端·ai·html·powerpoint·skill
AI视觉网奇19 分钟前
three教学 3d资产拼接源代码
前端·css·css3
程序猿阿伟1 小时前
《Chrome标签组搭建多任务高效浏览指南》
前端·chrome
2601_958352901 小时前
双麦 DSP 音频模块实战:一文梳理 A-68 在全行业场景的声学解决方案与落地要点
前端·嵌入式硬件·音视频·语音识别·降噪消回音·音频处理模块
智码看视界2 小时前
老梁聊全栈:JavaScript 原型链深入探索对象继承的奥秘
前端·javascript·ecmascript
布朗克1682 小时前
39 Spring Boot Web实战
前端·spring boot·后端·实战
纽格立科技2 小时前
DRM 发射端链路图(上)
前端·人工智能·车载系统·信息与通信·传媒
云水一下2 小时前
Vue.js从零到精通系列(七):高级特性实战——Teleport、异步组件、自定义指令与TypeScript深度结合
前端·vue.js·typescript
qq4356947012 小时前
Vue05
前端·vue.js