vue中使用tesseract实现OCR/文字识别(识别图片中的文字)

文章目录

tesseract官网地址:https://tesseract.projectnaptha.com/

github:https://github.com/naptha/tesseract.js#tesseractjs

tesseract在线使用

npm安装依赖:

javasrcipt 复制代码
npm install tesseract.js

页面引入:

javasrcipt 复制代码
import Tesseract from 'tesseract.js'

js方法:

url : 图像地址

language: 语种 参数 chi_sim eng jpn

javasrcipt 复制代码
// recognize 第一个参数:图像,第二个:语种
Tesseract.recognize(
  url,
 language,
 //  { logger: m => console.log(m) }
).then((d) => {
  console.log(d.data.text);
  ocrStr.value = d.data.text
})

tesseract离线使用

克隆仓库

https://gitcode.net/mirrors/jeromewu/tesseract.js-offline.git

执行 npm install

拷贝 worker.min.js和tesseract-core.wasm.js

在public文件夹下新建tesseract,将刚刚克隆的项目里面的node_modules/tesseract.js/dist/worker.min.js和node_modules/tesseract.js-core/tesseract-core.wasm.js两个js文件拷贝到tesseract文件夹下

index.html 引入tesseract.min.js

<script src="/tesseract/tesseract.min.js"></script>

下载语言包

下载地址: https://github.com/naptha/tessdata/tree/gh-pages/4.0.0

可根据自行选择版本下载

https://github.com/naptha/tessdata/blob/gh-pages/4.0.0/chi_sim.traineddata.gz

https://github.com/naptha/tessdata/blob/gh-pages/4.0.0/eng.traineddata.gz

下载完成后,拷贝到tesseract/lang-data文件夹下

文件不上传文件服务器

html 复制代码
          <input type="file" name="file" accept="image/png, image/jpeg, image/jpg" @change="change" style="margin-top: 30px"/>

可使用URL.createObjectURL将上传的文件生成临时url

javasrcipt 复制代码
    change() {
      //生成的临时url
      const url = URL.createObjectURL(document.querySelector('input[type=file]').files[0]);
      this.recognize(url);
    },

js方法

javasrcipt 复制代码
<script >
//为了在普通函数和ascyn函数中都能调用
let worker; 
export default {
  name: "index",
  data(){
    return {}
  },
  methods: {
  //url 图片地址
    async recognize(url) {
      let that = this //避免this指向问题
      worker = Tesseract.createWorker({
        /*        logger: m => {
                  that.progress = m.progress
                  that.status = m.status
                },*/
        //配置本地资源路径,语言包的实际位置是通过langPath+'/'+lang+'.traineddata.gz'得到的,所以不要改语言包文件名
        workerPath: '/tesseract/worker.min.js',
        corePath: '/tesseract/tesseract-core.wasm.js',
        langPath: '/tesseract/lang-data'
      })
      //调用async recognizeOcr函数进行识别
      let data = await this.recognizeOcr(url);
      console.log(data.data.text);
    },
    //url 图片地址
    async recognizeOcr(url){
      await worker.load();
      //可以通过'+'设置多个语言
      await worker.loadLanguage('chi_sim+eng+jpn'); 
      await worker.initialize('chi_sim+eng+jpn');
      const data = await worker.recognize(url);
      return data;
    }
  }
}
</script>

优化

tesseract.j、lang-data、tesseract.js-core文件较大,以后项目npm run build和部署到服务器时都会比较慢,故建议有条件的同学放到cdn托管。

相关推荐
Csvn几秒前
`??` 和 `||` 搞混,线上用户头像全挂了
前端
kyriewen26 分钟前
白宫前脚下了限制令,OpenAI 后脚就把 GPT-5.6 发了
前端·gpt·openai
用户40269244819081 小时前
CRMEB Pro 新增后台接口全链路:路由、权限、验证器、返回格式一次讲清
前端·后端
泉城老铁2 小时前
springboot+vue+ ffmpeg 实现视频的拉流播放
前端
逸铭2 小时前
Day 5:三栏布局——左账号 / 中聊天 / 右工具
vue.js·electron
PedroQue992 小时前
uni-router v1.8.0新增冷启动守卫补执行
前端·uni-app
xiaok2 小时前
部署之后,本地浏览器还在读取旧缓存导致页面一直显示loading中
前端
用户059540174462 小时前
Redis缓存一致性踩坑实录:线上故障排查6小时,我用pytest+内存快照把它永久关进了笼子
前端·css
星栈2 小时前
我用 Rust + Dioxus 做了个全栈跨平台笔记应用:第一版先把列表和详情跑通
前端·rust·前端框架
用户1733598075373 小时前
Vue 3 SPA 首屏优化:从 3s 到 1.2s 的 5 个实践
前端·vue.js