使用Claude 3实现发票、证件、车牌等图片识别场景中精准内容提取[人工智能]

本文主要介绍使用Claude 3来精准识别发票、证件、车牌等图片文件,提取其中的有用信息,类似于Claude 3的人工智能技术的应用可以极大的降低我们开发难度,缩短上线周期并降低整体使用成本

2024年3月,Anthropic 宣布推出 Claude 3,这是新系列的先进人工智能模型,允许客户选择适合其业务需求的智能、速度和成本的精确组合。该系列中的三个模型分别是 Claude 3 Haiku ,这是最快、最紧凑的模型,可实现近乎即时的响应;Claude 3 Sonnet ,平衡了技能和速度的理想模型;Claude 3 Opus,一款能在高度复杂任务上实现更出色性能的更加智能的产品。目前Anthropic已经和AWS合作,在Amazon Bedrock上上线了Haiku、Sonnet并计划尽快上线Opus。

目前,Anthropic Claude 3系列和大家熟知的OpenAI ChatGPT 4系列处于同一水平,下图是Anthropic官方的性能对比,此外很多第三方的资料也表明Claude 3部分优于ChatGPT 4

图片识别场景

使用Claude 3非常方便,只需要在AWS上使用Amazon Bedrock服务并申请Cluade 3的使用权限即可。bedrock自带的网页对话框可以非常方便的让我们进行开发和测试

12306火车票

这个例子以一个假的火车票为例进行识别,我输入如下的提示词,帮助Claude 3来识别火车票,注意输入提示词时我们需要把被识别的图片一起附带过去:

txt 复制代码
请按照如下格式提取图片信息,将提取的结果用json返回
1. 出发站,终点站;请注意:出发站位于图片左上角,终点站位于图片右上角;你以数组的方式来提取,格式为[出发站,终点站]
2. 车次;请注意:车次位于出发站和终点站之间,车次是英文字母开头,是英文字母和数字的组合
3. 出发时间;请注意:出发时间是xxx年xx月字样开头,请精确到分钟
4. 座位号;请注意:座位号格式为xxx车xx号,座位号是汉字、英文字母和数字的组合
5. 座位等级
6. 票价;请注意:票价的单位是人民币
7. 乘客身份证号码;请注意:乘客身份证号码经过了隐私处理,是一串连续的字符串,字符串里面有***的字样
8. 乘客姓名;请注意:乘客姓名位于客身份证号码右侧,乘客姓名位于乘客身份证号码后面,用空格分隔了

样本图片

识别的效果非常不错:

车牌号

这个例子以一个网络搜索得到的车牌为例进行识别,我输入如下的提示词

txt 复制代码
请按照如下格式提取车牌信息,将提取的结果用json返回
1. 车牌号;请注意车牌是图片蓝底白字部分或者绿底白字部分,中国大陆的车牌号是以汉字开头,由汉字、大写英文字母和数字组成
2. 汽车制造商;注意请按照照片中的文字原样输出,不要翻译
3. 汽车型号;注意请按照照片中的文字原样输出,不要翻译

样本图片

识别的效果非常不错:

广告卡片

这个例子以一个路边发放的广告名片进行识别,我输入如下的提示词

txt 复制代码
请按照如下格式提取图片信息,将提取的结果用json返回
1.公司名称;请注意:它是在图片的最顶部,文字被红色加粗了
2.联系人
3.电话号码
4.发票类型;请注意:发票类型可能是多个值,这些值在"发票类型"的下方,位于图片的左下角部分,这些值是用空格或者换行分割的,请以数组的方式来识别

样本图片

识别的效果不错,但是有个汉字认错了:

总结

提示工程是一个较新的学科,应用于开发和优化提示词(Prompt),帮助用户有效地将语言模型用于各种应用场景和研究领域。掌握了提示工程相关技能将有助于用户更好地了解大型语言模型的能力和局限性。研究人员可利用提示工程来提高大语言模型处理复杂任务场景的能力,如问答和算术推理能力。开发人员可通过提示工程设计和研发出强大的技术,实现和大语言模型或其他生态工具的高效接轨。

我在进行测试的过程中,只需要用自然对话的方式,基本对提示词的描述调整2到3次就可以完美的完成识别,后续大家可以自己收集不同的提示词模板,完成不同排版布局的图片的识别

参考

相关推荐
LetsonH18 分钟前
Pyro:基于PyTorch的概率编程框架
人工智能·pytorch·python
智联视频超融合平台24 分钟前
智慧赋能光伏运维——无人机巡检+地面监控双链路覆盖,打造光伏电站管理新标杆
运维·人工智能·网络协议·信息可视化·音视频·无人机
Listennnn42 分钟前
Neo4j数据库
数据库·人工智能·neo4j
微刻时光1 小时前
DeepSeek赋能电商,智能客服机器人破解大型活动人力困境
人工智能·机器人·自动化·rpa·deepseek·影刀证书·影刀实战
沫儿笙1 小时前
机器人弧焊二八混合气体节约
人工智能·物联网·机器人
沫儿笙1 小时前
FANUC发那科焊接机器人智能气阀
人工智能·物联网·机器人
一点.点2 小时前
DriveGenVLM:基于视觉-语言模型的自动驾驶真实世界视频生成
论文阅读·人工智能·语言模型·自动驾驶
妄想成为master2 小时前
深度学习详细入门路线----以本人亲身实践得出
人工智能·深度学习·计算机视觉
martian6652 小时前
掌握Python编程:从C++/C#/Java开发者到AI与医学影像开发专家
开发语言·人工智能·python·dicom
※DX3906※2 小时前
小土堆pytorch--神经网路的基本骨架(nn.Module的使用)&卷积操作
人工智能·pytorch·python