paddle ocr v4 微调训练文字识别模型实践

识别步骤参考：https://github.com/PaddlePaddle/PaddleOCR/blob/main/doc/doc_ch/recognition.md

微调步骤参考:https://github.com/PaddlePaddle/PaddleOCR/blob/release/2.7.1/doc/doc_ch/finetune.md

训练必要性

原始模型标点符号和括号容易识别不到

数据准备

通用数据用于训练以文本文件存储的数据集(SimpleDataSet);

一张图片一行文本

格式类似：

注意：图像文件名写xxx.jpg即可，文件夹名可以在配置文件中指定

数据源：垂直领域的pdf，经过剪裁生成了10万张图片（文本内容没有去重，为了保证一些词出现的频率不变）

开始训练

训练v4的模型，所以选择配置文件：ch_PP-OCRv4_rec.yml ，需要做如下更改
更改学习率为 $1e-4, 2e-5$ 左右，

更改图片文件夹路径

更改batch_size大小（训练报错时，适当调节大小，）

下载pretrain model，使用v4预训练模型
https://paddleocr.bj.bcebos.com/PP-OCRv4/chinese/ch_PP-OCRv4_rec_train.tar

注意：v4预训练模型没有best,只有student

正常启动训练

复制代码

python3 tools/train.py -c configs/rec/PP-OCRv4/ch_PP-OCRv4_rec.yml -o Global.pretrained_model=./pretrain_models/ch_PP-OCRv4_rec_train/student Global.save_model_dir=./output/rec_ppocr_v4

注意使用ch_PP-OCRv4_rec_distill.yml配置文件训练，报错KeyError: 'NRTRLabelDecode'，官方暂时没有解决。

bash 复制代码

python3 tools/train.py -c configs/rec/PP-OCRv4/ch_PP-OCRv4_rec_distill.yml -o Global.pretrained_model=./pretrain_models/ch_PP-OCRv4_rec_train/student

导出模型

复制代码

python3 tools/export_model.py -c configs/rec/PP-OCRv4/ch_PP-OCRv4_rec_jilin.yml  -o Global.pretrained_model=./output/rec_ppocr_v4/best_accuracy  Global.save_inference_dir=./inference/PP-OCRv4_rec_jilin/

python3 tools/infer/predict_rec.py --rec_model_dir="./inference/PP-OCRv4_rec/"  --image_dir="./train_data/rec/jilin_001_0_27_5.jpg"

推理

复制代码

python3 tools/infer_rec.py -c configs/rec/PP-OCRv4/ch_PP-OCRv4_rec.yml -o Global.pretrained_model=./output/rec_ppocr_v4/best_accuracy Global.infer_img=./train_data/rec/jilin_001_0_27_5.jpg

实践：

参考：https://blog.csdn.net/qq_52852432/article/details/131817619