合合信息的OCR技术在智能文档处理方面有哪些具体的应用案例?

智能文档处理(IDP)是利用人工智能技术,自动从复杂的非结构化和半结构化文档中抽取关键数据,并将其转换成结构化数据的技术。能够自动识别、提取并结构化处理文档中的关键信息。这种技术通常基于自然语言处理(NLP)和计算机视觉等先进技术,可以应用于各种类型的文档,如PDF、Word、Excel、图片等。

合合信息智能文档抽取的主要功能包括:

**文本抽取:**从文档中提取出所有文字内容,包括标题、正文、表格等。

**实体识别:**识别文档中的特定实体,如人名、地名、组织名、日期、金额等。

**关键信息提取:**根据预设的规则或模型,从文档中提取出关键信息,如合同条款、财务数据、项目进度等。

**结构化输出:**将提取出的信息以结构化的形式输出,如JSON、XML、CSV等。

**自动化处理:**可以与业务流程集成,实现自动化的文档处理,提高工作效率。

智能文档抽取在许多领域都有广泛的应用,如金融、法律、医疗、人力资源等。

下面将以金融场景为例,对金融大数据业务场景进行详细介绍。

在金融大数据服务行业,尤其是在财报和年报季,企业面临着巨大的数据处理挑战。传统的数据录入方法依赖于数据清洗和正则表达式来提取网页内容,然而这些方法在处理格式多样、版面复杂的文档时效果不佳。这导致重要信息难以高效准确地转换为可用数据,给企业带来了很大的困扰。

通过使用合合信息的文档解析工具,企业可以在短时间内处理大量数据输入。

一、革新券商综合柜面业务应用

综合柜面业务文件种类多,版式不一,复杂版面多,处理难度大。合合信息智能文档抽取产品,融合了OCR文字识别、版面解析、语义理解(Embedding)、结构化提取等多项技术,具备在多种复杂场景下实现高精度文档抽取的能力。将以智能文档抽取技术为核心的解决方案应用于综合柜面业务系统,能够在满足安全与合规要求的前提下,显著提升业务运行效率,降低运营风险。

合合信息智能文档处理平台,针对综合柜面业务的场景,提供"开箱即用"的文档抽取能力,涵盖:

客户风险承受能力测评及告知函
法人开户申请表法人开户申请表(产品) 个人开户申请表
三方存管协议 产品适当性评估结果确认书
业务授权委托书 业务受理单
证券开立申请表及证券业务办理须知 证券业务申请表(查、休、销)及业务办理须知
证券账户开立申请表及办理须知 证券账户业务申请表(适用于办理证券账户关联关系确认、转挂业务)
证券账户业务申请表(适用于开放式基金账户资料查询、场内外对应关系维护) 销户申请表
更多......

以版式各不相同的三方存管协议为例,三方存管协议主要用于个人开户业务、机构开户业务、合同企业开户业务、私募产品开户业务、单资金户和休眠户激活等业务,协议格式多样,抽取内容文字信息如投资者姓名、身份证件类型、证件号码等信息,还会涉及签署日期的手写字体识别,投资者签章、机构公章、经办签章、复核签章的公章识别。

创新点:开箱即用,"零样本"抽取

合合信息的智能文档抽取产品,具备开箱即用的特点,无需预先提供标注样本即可实现高效文档抽取。

这一"零样本"抽取能力,得益于平台内置的丰富模型和算法库,使系统在初次部署时就能快速适应并处理各种类型的文档。相比传统方法,省去了大量前期的数据标注和模型训练工作,从而极大减少了准备工作的时间和成本。用户只需简单配置,即可投入使用,大幅提升了部署效率和应用便捷性。

此外,在处理突发业务需求时,平台能够迅速响应和调整,满足各种复杂业务场景下的文档处理需求。

二、银行函证业务的数字化领航者

银行询证函是注册会计师、投行IPO项目组(询证者)直接从银行获取书面答复作为审计证据的过程,具备"独立性"特点,根本目的是核对账目,所确定的内容更多集中在应收应付账款的真实性与准确性,用于发现财务舞弊。

01函证审核

会计师/IPO项目组发函给商业银行,银行需要对函证中盖章规范性进行审核,并判定询证函格式是否符合银行规范;在回函之前,需要将回函件与用印件比对查看风险差异项。

合合信息智能文档处理平台的印章检测识别模型 可同时判断印章存在性、印章类型、颜色、形状并进行印章内容抽取,智能化实现印章合规性审核。平台同时提供文档比对模型,支持PDF、Word、图片、Excel、txt等多种文档格式,包含印刷体/手写体、表格、印章比对等。

■ 印章检测识别:

支持智能识别印章类型,涵盖:公章、合同专用章、法定代表人章、财务专用章、发票专用章、业务专用章等。同时可识别印章颜色、印章形状、涵盖主体名称的印章内容,并提供印章图像切片。

■ 询证函格式比对:

支持"修改、删除、增加"三种不同类型差异显示,原文高亮展示文本差异处信息,可左右文档同步预览或异步预览,快速定位、直观比对差异点,将自动过滤骑缝章、授权章及回函章等的影响,支持同步滚动展示模式,文档差异点按条款聚合,一目了然。

02函证回复

根据《银行函证工作操作指引》,适用于注册会计师执行财务报表审计业务的询证函有两种格式。

格式一由注册会计师根据根据被审计单位相关信息填写,银行接收到格式一询证函后,需要采集函证内14大类信息,与行内业务系统中客户数据比对,回复是否相符,如不符,还应提供详细信息。

格式二由注册会计师填写扣款银行账号以及供银行识别函证范围所需信息,银行接收到格式二询证函后,需要抽取被审计单位的账户信息,对接内部数据库,填写具体信息后回函。

合合信息智能文档抽取产品,支持格式一、格式二两种版式银行询证函的关键信息抽取,涵盖银行存款、银行借款、担保等14大类信息及被审计单位账户信息,依托合合信息自研的垂直领域语义模型,实现开箱即用的"零样本"抽取,辅助业务人员智能化完成信息抽取与比对。

覆盖函证字段:

  1. 银行存款:账户名称、银行账号、币种、利率、账户类型、账户余额、是否属于资金归集、起始日期、终止日期、是否存在使用限制、备注
  2. 银行借款:借款人名称、借款账号、币种、余额、借款日期、到期日期、利率、抵(质)押品/担保人、备注
  3. 注销的银行存款账户:账户名称、银行账号、币种、注销账户日
  4. 被审计单位作为委托人的委托贷款:账户名称、银行结算账号、资金借入方、币种、利率、余额、贷款起止日期、备注
  5. 被审计单位作为借款人的委托贷款:账户名称、银行结算账号、资金借出方、币种、利率、余额、贷款起止日期、备注
  6. 担保:被担保人、担保方式、币种、担保余额、担保到期日、担保合同编号、备注
  7. 银行承兑汇票:银行承兑汇票号码、结算账户账号、币种、票面金额、出票日、到期日、抵(质)押品
  8. 已贴现而尚未到期的商业汇票:商业汇票号码、承兑人名称、币种、票面金额、出票日、到期日、贴现日、贴现率、贴现净额
  9. 被审计单位为持票人的商业汇票:商业汇票号码、承兑人名称、币种、票面金额、出票日、到期日
  10. 不可撤销信用证:信用证号码、受益人、币种、信用证金额、到期日、未使用金额
  11. 外汇买卖合约:类别、合约号码、贵行卖出币种、贵行买入币种、未履行的合约买卖金额、汇率、交收日期
  12. 证券或其他产权文件:证券或其他产权文件名称、证券代码或产权文件编号、数量、币种、金额
  13. 未到期银行理财产品:产品名称、产品类型(封闭式/开放式)、币种、持有份额、产品净值、购买日、到期日、是否用于担保或存在其他使用限制
  14. 资金归集:资金提供机构名称、资金提供机构账号、资金使用机构名称、资金使用机构账号、币种、资金余额、备注

03 发送回函

合合信息智能文档抽取产品,可智能化抽取函证中的回函地址、联系人等信息,对接快递系统下单。

三、基金合同信息自动提取

合合信息智能文档处理平台重磅上线基金合同抽取模型,内置30+常用字段智能抽取,包括:基金名称、产品名称、存续期限、是否节假日顺延、运作方式、产品类型、募集币种、管理人名称、托管人名称、产品风险级别、投资者风险承受能力、管理人网站、基金服务机构全称、注册登记编码、代销机构全称、最低募集金额、最低投资者人数、最高投资者人数、首次投资最低金额、追加认购最低金额、认购失败利息处理方式、认购期利息处理方式、是否收取认购费、赎回限制天数、认购费归属、封闭期、申购费归属、赎回费等。

除内置字段外,合合信息智能文档处理平台的基金合同抽取模型还支持自定义配置抽取字段,开箱即用,无需标准训练,即可实现抽取。

· 功能亮点:

1.开箱即用:内置30+常用字段,同时支持自定义配置字段。无需标注训练,即可实现抽取。

  1. 泛化性强:兼容不同版式的基金合同

  2. 复杂版面解析:准确还原复杂表格(含少线表、无线表、合并表格)

  3. "多模态"抽取:支持抽取多种文件格式及手写体、印章、整表等元素

  4. 长文本抽取:支持抽取多达数百页的基金合同

  5. 具备通用及基金领域知识:基于高质量语料库应用,具备基金领域的专项知识

·应用场景:

合合信息智能文档处理平台 的基金合同抽取模型适用于基金公司、证券资管、保险资管、证券/银行托管等机构业务。这些机构每日需要处理大量的划款单、邮件或传真指令、开户表单、对账单、基金宣传材料、基金合同、托管协议、公司行动公告等非结构化文本。合合信息智能文档处理平台基于文档解析、文档抽取、文档审核、文档比对等核心AI技术能力,可自动化处理海量业务文档,无缝对接业务系统,提升业务效率,驱动业务智能化升级。

相关推荐
yuanlulu5 天前
昇腾环境ppstreuct部署问题记录
人工智能·深度学习·llm·ocr·ppstructure
微学AI6 天前
GPU算力平台|在GPU算力平台部署轻量级中文OCR项目(chineseocr_lite)
ocr·gpu算力
塞大花8 天前
PDF文件提取开源工具调研总结
pdf·ocr·paddlepaddle·paddle·pdf文件提取·pdf内容识别
pchmi10 天前
C# OpenCV机器视觉:OCR产品序列号识别
opencv·c#·ocr·机器视觉
玩电脑的辣条哥11 天前
如何用python部署本地ocr脚本
开发语言·python·ocr
后端常规开发人员11 天前
最好用的图文识别OCR -- PaddleOCR(4) 模型微调
python·ocr·paddleocr
CAD快速看图15 天前
PDF如何提取文字?OCR技术快速识别提取PDF中的文字内容!这种简单方法一定要知道!
pdf·ocr
goomind17 天前
MATLAB深度学习实战文字识别
深度学习·计算机视觉·matlab·ocr·文字识别
Andy_shenzl18 天前
13、Ollama OCR
ocr
后端常规开发人员18 天前
最好用的图文识别OCR -- PaddleOCR(2) 提高推理效率(PPOCR模型转ONNX模型进行推理)
python·ocr·onnx·paddleocr