两个改动,让这个iOS OCR SDK识别成功率翻了一倍

AI全栈工程师,不定期分享技术、投资、认知领域内容👏欢迎关注

背景

五一假期,我干了一件挺"无聊"的事------把前些天银行卡iOS OCRKit 优化了一下。

起因很简单,5月2日早上发现在一些复杂银行(尤其是中行)上,经常识别失败。

不是完全不行,而是------"能用,但不稳定"。

而这种体验,在真实产品里,其实就是不可用。于是,开始定位问题,最终能只改了两处,大概30行代码,使得识别速度提升了近一倍。

透视矫正会检测图中最大矩形,问题是银联的椭圆 Logo 有时被误识别,触发一次完全错误的透视变换------把一个 Logo 的边界框"展平",产出一张 516×400 的噪音小图,后续识别必然失败,还白白浪费了一轮 Vision OCR(约 1-2 秒)。

修复只用了一行:矩形面积占帧面积不足 12% 直接跳过。Logo 约 8%,完整卡面通常超过 40%,精准拦截,该路径识别速度提升约 30%。

第二个:多帧融合第一位永远没有票

之前所有片段默认右对齐,中行等银行卡读出的 11-13 位长片段(从卡号第一位开始读的)统统偏移,第一位永远没有投票数据,多帧融合必然失败。

改成"≥10 位且以合法卡号前缀开头 → 左对齐",再加上 Luhn 校验单点补救(恰好 1 个位置缺票时,数学上唯一反推该位数字),中行长城背景等此前束手无策的卡面识别率大幅提升,极端场景接近联网方案水准。

结果

  • 常规卡基本可以秒识别

  • 之前复杂的民生卡识别速度和准确率接近翻倍

  • 最复杂的中行卡从基本不能用到基本可用

中行弱光情况下:

中行强光照条件下:

一个有意思的现象

最后说一个有意思的事,在极端环境下(晚上关闭灯光,仅靠电脑屏幕和手机手电筒),我这个民生卡在我的SDK里可以识别成功,而微信连续错了两次。

我的iOS OCRKit识别结果:

微信添加银行卡的识别结果:

当时的环境:

两个改动,合计不到 30 行代码,让复杂的中行卡识别从几乎不可用到基本可用。

OCRKit完全本地运行,无网络请求,零隐私泄露风险。GitHub 搜 OCRKit-Release,欢迎试用。代码不值钱,但"把问题看对"的能力,很值钱。

(完)

如分享的内容对路过的朋友有帮助,可点赞、转发、关注,你们的支持是我持续更新的动力。

往期推荐:

AI技术与音视频结合的全景视图

图像处理技术概要图

相关推荐
小虎AI生活4 小时前
Agent 工具那么多,为什么我押注 WorkBuddy 加 ima
ai编程
leeyi7 小时前
Prompt 模板:用变量组装发给 AI 的消息
aigc·agent·ai编程
kyriewen9 小时前
同事每天催我 Code Review,我写了个脚本让 AI 替我 review PR——现在他反过来催 AI 了
前端·javascript·ai编程
沉默王二9 小时前
Qoder 越来越猛了,Browser Use 让 Agent 的联网能力拉满。
agent·ai编程
aqi0011 小时前
15天学会AI应用开发(七)有了大模型为什么还要引入RAG
人工智能·python·大模型·ai编程·ai应用
我不是外星人1 天前
有了 Harness Engineering ,真的还需要研发工程师吗?
前端·后端·ai编程
穿过生命散发芬芳1 天前
现在CC Switch一开,Claude Code随便玩
ai编程
yuanyxh1 天前
macOS 应用 - 纯对话生成
前端·macos·ai编程
葫芦和十三1 天前
多模态融合|是数据形态工程,不是 Prompt 工程
openai·agent·ai编程