OCR常用识别算法综述

转身之后才不会2024-04-05 19:27

参考：https://aistudio.baidu.com/education/lessonvideo/3279888

语种：常用字符36与常用汉字6623，区别。

标注：文本型位置/单字符位置，后者标注成本大

挑战：场景文字识别：字符大小、颜色、字体、亮度、对比度多样。文字模糊、排列不规则、文字残缺、遮挡

发展历程：两个阶段2015年前，后

数据集：

Synth90k,Synth Text

水平文本

（最后一个基本不用上）

识别方法：

传统方法：

GTC

文本不规则解决

TextScanner

NRTR

自注意力模型：

更适合长文本识别

SAR

1D变2D效果更好

语言信息、对其信息、视觉信息都有用上，就是会更慢一点

RobustScanner

CDistNet

并行注意力解码

visionLAN

小结：

上一篇：SQL 递归思想

下一篇：如何在mysql中生成类似oracle中的rownum行号?

热门推荐

01GitHub 镜像站点 02AI科技热点日报 | 2026年07月01日 032026年7月AI圈大地震：GPT-5.6被政府限制、Claude入驻Slack、Anthropic自研芯片 04幻兽帕鲁 - 服务器管理员权限与 GM 命令完全指南 05GPT-5.5 对比 GPT-5.6 Sol、Terra、Luna：官方性能数据与选型分析 062026 国产 AI 大模型横评：DeepSeek、通义千问、Kimi、文心一言、星火、豆包谁更能打？07AI 编程 IDE 全景解析 2026：Agent 全面接管开发链路 082026 年 AI 编程工具终极横评：Cursor vs Claude Code vs Copilot vs Windsurf 092026 AI 编程工具终极实战指南：Cursor vs Claude Code vs Copilot，开发者该怎么选？102026 年 AI 大模型 & AI 编程工具实战全总结