OCR常用识别算法综述

参考:https://aistudio.baidu.com/education/lessonvideo/3279888

语种:常用字符36与常用汉字6623,区别。

标注:文本型位置/单字符位置,后者标注成本大

挑战:场景文字识别:字符大小、颜色、字体、亮度、对比度多样。文字模糊、排列不规则、文字残缺、遮挡

发展历程:两个阶段2015年前,后

数据集:

Synth90k,Synth Text

水平文本

(最后一个基本不用上)


识别方法:

传统方法:







GTC

文本不规则解决

TextScanner


NRTR

自注意力模型:

更适合长文本识别

SAR

1D变2D效果更好

语言信息、对其信息、视觉信息都有用上,就是会更慢一点

RobustScanner


CDistNet


并行注意力解码



visionLAN


小结:

相关推荐
AI人工智能+17 小时前
从“海量文书”到“精准数据”:文档智能抽取重塑车险核心竞争力
nlp·ocr·文档抽取
Stara051118 小时前
DeepSeek-OCR私有化部署—从零构建OCR服务环境
计算机视觉·docker·ocr·transformers·vllm·deepseek·光学符号识别
翔云 OCR API1 天前
人工智能驱动下的OCR API技术演进与实践应用
人工智能·ocr
探模之翼1 天前
深度解读 DeepSeek-OCR 论文:通过视觉模态实现高效文本压缩
大模型·ocr·deepseek-ocr
paopao_wu2 天前
DeepSeek-OCR实战(06):SpringBoot应用接入
java·spring boot·ai·ocr·deepseek
paopao_wu2 天前
DeepSeek-OCR实战(05):DeepSeek-OCR-WebUI部署(Docker)
docker·ai·容器·ocr
OpenBayes2 天前
教程上新丨Deepseek-OCR 以极少视觉 token 数在端到端模型中实现 SOTA
人工智能·深度学习·机器学习·ocr·大语言模型·文本处理·deepseek
kevin 12 天前
财报OCR录入识别软件准确率高吗?易道博识财报录入实测效果如何?
ocr
❀͜͡傀儡师2 天前
Docker 部署 DeepSeek-OCR 和WebUI
docker·容器·ocr
mit6.8242 天前
[Column#187] 10data_struct | IP速查表 | 协议&TCP&UDP | DeepSeek-OCR
tcp/ip·udp·ocr