使用Claude 3实现发票、证件、车牌等图片识别场景中精准内容提取[人工智能]

本文主要介绍使用Claude 3来精准识别发票、证件、车牌等图片文件,提取其中的有用信息,类似于Claude 3的人工智能技术的应用可以极大的降低我们开发难度,缩短上线周期并降低整体使用成本

2024年3月,Anthropic 宣布推出 Claude 3,这是新系列的先进人工智能模型,允许客户选择适合其业务需求的智能、速度和成本的精确组合。该系列中的三个模型分别是 Claude 3 Haiku ,这是最快、最紧凑的模型,可实现近乎即时的响应;Claude 3 Sonnet ,平衡了技能和速度的理想模型;Claude 3 Opus,一款能在高度复杂任务上实现更出色性能的更加智能的产品。目前Anthropic已经和AWS合作,在Amazon Bedrock上上线了Haiku、Sonnet并计划尽快上线Opus。

目前,Anthropic Claude 3系列和大家熟知的OpenAI ChatGPT 4系列处于同一水平,下图是Anthropic官方的性能对比,此外很多第三方的资料也表明Claude 3部分优于ChatGPT 4

图片识别场景

使用Claude 3非常方便,只需要在AWS上使用Amazon Bedrock服务并申请Cluade 3的使用权限即可。bedrock自带的网页对话框可以非常方便的让我们进行开发和测试

12306火车票

这个例子以一个假的火车票为例进行识别,我输入如下的提示词,帮助Claude 3来识别火车票,注意输入提示词时我们需要把被识别的图片一起附带过去:

txt 复制代码
请按照如下格式提取图片信息,将提取的结果用json返回
1. 出发站,终点站;请注意:出发站位于图片左上角,终点站位于图片右上角;你以数组的方式来提取,格式为[出发站,终点站]
2. 车次;请注意:车次位于出发站和终点站之间,车次是英文字母开头,是英文字母和数字的组合
3. 出发时间;请注意:出发时间是xxx年xx月字样开头,请精确到分钟
4. 座位号;请注意:座位号格式为xxx车xx号,座位号是汉字、英文字母和数字的组合
5. 座位等级
6. 票价;请注意:票价的单位是人民币
7. 乘客身份证号码;请注意:乘客身份证号码经过了隐私处理,是一串连续的字符串,字符串里面有***的字样
8. 乘客姓名;请注意:乘客姓名位于客身份证号码右侧,乘客姓名位于乘客身份证号码后面,用空格分隔了

样本图片

识别的效果非常不错:

车牌号

这个例子以一个网络搜索得到的车牌为例进行识别,我输入如下的提示词

txt 复制代码
请按照如下格式提取车牌信息,将提取的结果用json返回
1. 车牌号;请注意车牌是图片蓝底白字部分或者绿底白字部分,中国大陆的车牌号是以汉字开头,由汉字、大写英文字母和数字组成
2. 汽车制造商;注意请按照照片中的文字原样输出,不要翻译
3. 汽车型号;注意请按照照片中的文字原样输出,不要翻译

样本图片

识别的效果非常不错:

广告卡片

这个例子以一个路边发放的广告名片进行识别,我输入如下的提示词

txt 复制代码
请按照如下格式提取图片信息,将提取的结果用json返回
1.公司名称;请注意:它是在图片的最顶部,文字被红色加粗了
2.联系人
3.电话号码
4.发票类型;请注意:发票类型可能是多个值,这些值在"发票类型"的下方,位于图片的左下角部分,这些值是用空格或者换行分割的,请以数组的方式来识别

样本图片

识别的效果不错,但是有个汉字认错了:

总结

提示工程是一个较新的学科,应用于开发和优化提示词(Prompt),帮助用户有效地将语言模型用于各种应用场景和研究领域。掌握了提示工程相关技能将有助于用户更好地了解大型语言模型的能力和局限性。研究人员可利用提示工程来提高大语言模型处理复杂任务场景的能力,如问答和算术推理能力。开发人员可通过提示工程设计和研发出强大的技术,实现和大语言模型或其他生态工具的高效接轨。

我在进行测试的过程中,只需要用自然对话的方式,基本对提示词的描述调整2到3次就可以完美的完成识别,后续大家可以自己收集不同的提示词模板,完成不同排版布局的图片的识别

参考

相关推荐
涛涛讲AI5 分钟前
当AI浏览器和AI搜索替代掉传统搜索份额时,老牌的搜索引擎市场何去何从。
人工智能·搜索引擎
engchina14 分钟前
来自B站AIGC科技官的“vLLM简介“视频截图
人工智能·vllm
说私域30 分钟前
基于开源技术体系的品牌赛道力重构:AI智能名片与S2B2C商城小程序源码驱动的品类创新机制研究
人工智能·小程序·重构·开源·零售
智驱力人工智能37 分钟前
无感通行与精准管控:AI单元楼安全方案的技术融合实践
人工智能·安全·智慧城市·智慧园区
Chrome深度玩家43 分钟前
谷歌翻译安卓版拍照翻译精准度与语音识别评测【轻松交流】
android·人工智能·语音识别
机器之心1 小时前
ICLR 2025 Oral|差分注意力机制引领变革,DIFF Transformer攻克长序列建模难题
人工智能
机器之心1 小时前
字节Seed团队PHD-Transformer突破预训练长度扩展!破解KV缓存膨胀难题
人工智能
正宗咸豆花1 小时前
开源提示词管理平台PromptMinder使用体验
人工智能·开源·prompt
Lilith的AI学习日记1 小时前
AI提示词(Prompt)终极指南:从入门到精通(附实战案例)
大数据·人工智能·prompt·aigc·deepseek
夏之繁花1 小时前
AI图像编辑器 Luminar Neo 便携版 Win1.24.0.14794
人工智能