OCR常用识别算法综述

参考:https://aistudio.baidu.com/education/lessonvideo/3279888

语种:常用字符36与常用汉字6623,区别。

标注:文本型位置/单字符位置,后者标注成本大

挑战:场景文字识别:字符大小、颜色、字体、亮度、对比度多样。文字模糊、排列不规则、文字残缺、遮挡

发展历程:两个阶段2015年前,后

数据集:

Synth90k,Synth Text

水平文本

(最后一个基本不用上)


识别方法:

传统方法:







GTC

文本不规则解决

TextScanner


NRTR

自注意力模型:

更适合长文本识别

SAR

1D变2D效果更好

语言信息、对其信息、视觉信息都有用上,就是会更慢一点

RobustScanner


CDistNet


并行注意力解码



visionLAN


小结:

相关推荐
AI人工智能+12 天前
CNN+CRNN+NER:如何实现食品经营许可证秒级结构化信息提取?
深度学习·ocr·食品经营许可证识别
摆烂小白敲代码13 天前
腾讯云智能结构化OCR在物流行业的应用
大数据·人工智能·经验分享·ocr·腾讯云
开开心心就好16 天前
免费音频转文字工具,绿色版离线多模型可用
人工智能·windows·计算机视觉·计算机外设·ocr·excel·语音识别
开开心心_Every17 天前
全屏程序切换工具,激活选中窗口快速切换
linux·运维·服务器·pdf·ocr·测试用例·模块测试
2401_8362358618 天前
名片识别产品:技术要点与应用场景深度解析
人工智能·科技·深度学习·ocr
njsgcs19 天前
glm-ocr ollama使用 python
ocr
开开心心就好19 天前
轻松鼠标连, 自定义区域模仿人手点击
人工智能·windows·物联网·计算机视觉·计算机外设·ocr·excel
littleshimmer19 天前
基于 C++ + Qt6 实现一款本地离线 OCR 工具(SnapOCR)
ocr
AI周红伟21 天前
周红伟:企业大模型微调和部署, DeepSeek-OCR v2技术原理和架构,部署案例实操。RAG+Agent智能体构建
大数据·人工智能·大模型·ocr·智能体·seedance
kongba00723 天前
如何在本地创建一个OCR工具,帮你识别文档,发票,合同等细碎的内容,并将结果给大模型整理格式输出。 经验工作流。给大模型生成代码就能直接跑。
大数据·ocr