用kimichat批量识别出图片版PDF文件中的文字内容

图片版的PDF文件,怎么才能借助AI工具来提取其中全部的文字内容呢?

第一步:将PDF文件转换成图片格式

具体方法参见文章:《零代码编程:用kimichat将图片版PDF自动批量分割成多个图片》

第二步:识别图片中的文字

将第一步pdf转换成的图片,上传到kimichat

注意:kimichat目前上传图片一次最多50张图片,单个大小不超过100M

上传完成后,kimichat会进行解析。

部分图片会提示:未提取到文字或者解析失败

点击这些解析失败图片的右上角红色X,把这些无法解析的图片删除掉

然后回车,就全部识别出来到了。但是,识别的顺序不是按照文件标题名来的,有些乱,可以让kimichat调整下:

请按照图片标题顺序排列

Kimichat最终的输出结果:

当然,根据您提供的图片标题顺序,这里是整理后的文字内容:

  1. **page_5.png:**
    • I'll Be α
    • COWBOY
    • Anita Bijsterbosch
    • Clavis
    • NEWYORK
  2. **page_6.png:**
    • "Mommy, there's a party at school
    • tomorrow, and we get to wear
    • costumes!" Sammy says.
  3. **page_8.png:**
    • "I think I'll be
    • a cowboy.
    • lasso"
  4. **page_9.png:**
    • cowboyhat
    • Shirt .........
    • vest
    • ....
    • Fringed pants
    • cowboy boots
    • spurs
  5. **page_10.png:**
    • "Yee-Haw!"
  6. **page_12.png:**
    • "Or wait, I'll go as
    • a firefighter."
    • dragon
    • walkie-talkie
    • Fire engine
    • Flashlight
  7. **page_13.png:**
    • helmet
    • Firefighter suit
    • gloves
    • Firefighter boots
  8. **page_15.png:**
    • "Fire!"
  9. **page_16.png:**
    • "Hmm, perhaps
    • I'll be a pirate."
    • parrot
    • JollyRoger
    • treasure map
    • treasure chest
    • spyglass
  10. **page_17.png:**
    • bandana
    • eyepatch
    • striped T-shirt
    • ......
    • belt
    • trousers
    • buccaneer
    • boots
  11. **page_19.png:**
    • Land
    • ho!"
  12. **page_20.png:**
    • "Or I could
    • gc
    • as a knight.
    • castle
    • horse
    • cuddly toy
    • Feather
    • dragon
    • Sword"
  13. **page_21.png:**
    • helmet
    • armor
    • shield
    • gauntlet
    • boots
  14. **page_23.png:**
    • Tan-tan-tara!
  15. **page_24.png:**
    • "I could be
    • a magician...
    • wand"
  16. **page_25.png:**
    • magic hat
    • OD
    • boots
  17. **page_26.png:**
    • "+"
  18. **page_27.png:**
    • Abracadabra!
  19. **page_28.png:**
    • "Or maybe
    • I should
    • just go
    • as myself?"
  20. **page_29.png:**
  • T-shirt

  • overalls

  • boots

这些文字内容似乎是从一本关于职业和角色扮演的儿童书中提取的。如果您需要进一步的信息或帮助,请随时联系我。

相关推荐
m0_748241231 小时前
ElasticPDF-新国产 PDF 编辑器开发框架(基于 pdf.js Web PDF批注开发,实现高亮多边形橡皮擦历史记录保存注释文字)
前端·pdf·编辑器
ComPDFKit2 小时前
开源 JS PDF 库比较
pdf
杨浦老苏2 小时前
开源PDF翻译工具PDFMathTranslate
人工智能·docker·ai·pdf·群晖·翻译
LostSpeed7 小时前
在福昕(pdf)阅读器中导航到上次阅读页面的方法
pdf
旭久7 小时前
SpringBoot的Thymeleaf做一个可自定义合并td的pdf表格
pdf·html·springboot
神色自若1 天前
Net9为PDF文字替换,使用Spire.PDF版本10.12.4.1360
pdf
机器懒得学习1 天前
解析交通事故报告:利用 PDF、AI 与数据标准化技术构建智能分析系统
pdf
合合技术团队2 天前
高效准确的PDF解析工具,赋能企业非结构化数据治理
人工智能·科技·pdf·aigc·文档
jingling5552 天前
如何使用免费资源--知网篇
开发语言·经验分享·搜索引擎·pdf·开源
haha_qasim2 天前
怎么将pdf中的某一个提取出来?介绍几种提取PDF中页面的方法
前端·pdf