【玩转OCR】 | 腾讯云智能结构化OCR在多场景的实际应用与体验

文章目录

引言

在数字化信息处理的时代,如何高效、精准地提取和结构化各类文档数据成为了企业和政府部门的重要需求。尤其是在面对海量票据、证件、表单和其他格式多样的文档时,人工录入和传统OCR技术常常面临识别精度低、处理效率差等问题。为了解决这些痛点,智能结构化光学字符识别(Smart OCR)应运而生。结合领先的深度学习技术和图像检测能力,智能结构化OCR能够高效地识别各类文本,并将其转化为结构化数据,广泛应用于政务、票据核销、行业表单、国际物流等领域。本篇文章我主要将介绍该技术的产品功能、优势以及API调用实践,这里重点说明图像增强还有发票识别,当然后面还展示了其他是一些~~~

产品简介

智能结构化(Smart Structure Optical Character Recognition )融合了业界领先的深度学习技术、图像检测技术以及 OCR 大模型能力,能够实现不限版式的结构化信息抽取。无论是固定卡证还是复杂的物流单据,均可实现智能识别。该产品预学习建立键值对应关系,支持客户定制模板,提升数据提取录入效率,适用于政务、票据核销、行业表单和国际物流等场景。

产品功能

  • 自定义键值

    支持自定义创建个性化键值(key),用户通过传入自定义 key,模型自动建立图片中文字的键值对应关系,实现对任意版式图片的结构化识别。

  • 智能匹配

    支持对已上传图片的智能配准,实现对不同版式图片与已发布模板的自动匹配,减少人工分类成本,快速实现图片的结构化识别。

    自定义字段类型

    支持自定义创建字段类型,支持针对不同识别区内容类型进行专项优化,如小写金额、日期、纯数字等,可根据需求选择合适的字段类型以提升识别准确率,也可通过穷举可能的输出值范围自定义字段类型,对识别结果进行智能纠正和规范。

产品优势

高精度

支持任意版式的卡证票据识别,各字段精度均处于业界领先水平,文本基础识别准确率达到98%以上,文本结构化准确率达到85%以上。

完备性

支持多种常见版式的数据结构化提取,如警察证、教师资格证、道路运输证等,适用于多行业场景。

易用性

用户仅需简单的几步配置,即可定制个性化需求模板,快速提取结构化数据,实现高效录入。

API调用与场景实践

在API调用之前,我们需要开通一下功能,在下面的搜索栏搜索即可

图像增强API调用实例

在左侧的导航栏找到API Explorer,然后在上方搜索到文字识别,再通过设置相关参数,如ImageBase64或ImageUrl等等,我们就可以将待处理的图像传递给API

下面是Python代码示例

python 复制代码
import json
import types
from tencentcloud.common import credential
from tencentcloud.common.profile.client_profile import ClientProfile
from tencentcloud.common.profile.http_profile import HttpProfile
from tencentcloud.common.exception.tencent_cloud_sdk_exception import TencentCloudSDKException
from tencentcloud.ocr.v20181119 import ocr_client, models
try:
    # 实例化一个认证对象,入参需要传入腾讯云账户 SecretId 和 SecretKey,此处还需注意密钥对的保密
    # 代码泄露可能会导致 SecretId 和 SecretKey 泄露,并威胁账号下所有资源的安全性。以下代码示例仅供参考,建议采用更安全的方式来使用密钥,请参见:https://cloud.tencent.com/document/product/1278/85305
    # 密钥可前往官网控制台 https://console.cloud.tencent.com/cam/capi 进行获取
    cred = credential.Credential("SecretId", "SecretKey")
    # 实例化一个http选项,可选的,没有特殊需求可以跳过
    httpProfile = HttpProfile()
    httpProfile.endpoint = "ocr.tencentcloudapi.com"

    # 实例化一个client选项,可选的,没有特殊需求可以跳过
    clientProfile = ClientProfile()
    clientProfile.httpProfile = httpProfile
    # 实例化要请求产品的client对象,clientProfile是可选的
    client = ocr_client.OcrClient(cred, "ap-guangzhou", clientProfile)

    # 实例化一个请求对象,每个接口都会对应一个request对象
    req = models.ImageEnhancementRequest()
    params = {
        "ImageBase64": ""
    }
    req.from_json_string(json.dumps(params))

    # 返回的resp是一个ImageEnhancementResponse的实例,与请求对象对应
    resp = client.ImageEnhancement(req)
    # 输出json格式的字符串回包
    print(resp.to_json_string())

except TencentCloudSDKException as err:
    print(err)

官方也提供了文档说明

发票API调用实例

这里我在网上随便找了一张发票

经过我们API的调用之后

其他场景

当然还有其他的场景,例如车牌识别

公式识别

还有丰富的其他场景,供大家自行去体验,体验地址在最下方

结语

随着智能OCR技术的不断发展,它在各个行业中的应用场景越来越广泛。从简单的卡证票据到复杂的行业表单,智能OCR的结构化信息抽取能力都能大大提高数据处理的效率与准确性。无论是在政务、物流,还是在企业的财务管理中,智能OCR都将成为数字化转型的重要工具。通过本文介绍的API调用和场景实践,希望能帮助您快速上手并体验这一创新技术的强大功能,进一步提升工作效率,释放人工智能的巨大潜力。我期待着,也祝愿屏幕前的你越来越好~~~

相关链接

刚兴趣的小伙伴可以参考这些文档:

官方接口文档:https://cloud.tencent.com/document/api/866

API在线调用页面:https://console.cloud.tencent.com/api/explorer?Product=ocr\&Version=2018-11-19\&Action=GeneralBasicOCR

体验Demo地址:https://ocrdemo.cloud.tencent.com/?from_column=20421\&from=20421

产品页:https://cloud.tencent.com/product/smart-ocr?from_column=20421\&from=20421

相关推荐
周周的奇妙编程2 小时前
基于腾讯云大模型知识引擎×DeepSeek构建八字、六爻赛博算卦娱乐应用
云计算·腾讯云·娱乐
saynaihe3 小时前
2025吐槽季第一弹---腾讯云EO边缘安全加速平台服务
运维·安全·云计算·腾讯云
a_靖5 小时前
网页请求腾讯云环境的云函数
腾讯云·云开发·云函数·网页请求云函数·腾讯云开发的云函数在网页请求
艺霖树洞5 小时前
宝塔扩容——阿里云如何操作
阿里云·云计算
努力的小T15 小时前
使用 Docker 部署 Apache Spark 集群教程
linux·运维·服务器·docker·容器·spark·云计算
HaoHao_0101 天前
边缘安全加速(Edge Security Acceleration)
阿里云·云计算·云服务器·加速·dcdn
Anna_Tong1 天前
阿里云 ACS:高效、弹性、低成本的容器计算解决方案
人工智能·阿里云·容器·kubernetes·serverless·云计算·devops
佛州小李哥1 天前
亚马逊文生图AI模型深度体验+评测(上)
人工智能·科技·ai·语言模型·云计算·aws·亚马逊云科技
私人珍藏库1 天前
[Windows] Umi-OCR 开源批量文字识别 支持图片,文档,二维码,截图等
ocr
hwshea1 天前
Tesseract OCR使用
ocr