步骤1：python版本3.8.20

步骤2：下载代码，安装依赖

git clone https://gitee.com/PaddlePaddle/PaddleOCR.git

pip uninstall opencv-python -y # 安装PaddleOCR的依赖 !

pip install -r requirements.txt # 安装关键信息抽取任务的依赖 !

pip install -r ./ppstructure/kie/requirements.txt

步骤3：安装paddlepaddle_gpu

pip install paddlepaddle_gpu==2.5.2

步骤4：下载数据集

XFUND\](https://github.com/doc-analysis/XFUND) **数据集说明：** 建议将训练图片放入同一个文件夹，并用一个文本文件记录图片路径和标签，文本文件里的内容如下: \`\`\`python linenums="1" " 图像文件名 图像标注信息 " zh_train_0.jpg \[{"transcription": "汇丰晋信", "label": "other", "points": \[\[104, 114\], \[530, 114\], \[530, 175\], \[104, 175\]\], "id": 1, "linking": \[\]}, {"transcription": "受理时间:", "label": "question", "points": \[\[126, 267\], \[266, 267\], \[266, 305\], \[126, 305\]\], "id": 7, "linking": \[\[7, 13\]\]}, {"transcription": "2020.6.15", "label": "answer", "points": \[\[321, 239\], \[537, 239\], \[537, 285\], \[321, 285\]\], "id": 13, "linking": \[\[7, 13\]\]}

zh_train_1.jpg [{"transcription": "中国人体器官捐献", "label": "other", "points": [[544, 459], [954, 459], [954, 517], [544, 517]], "id": 1, "linking": []}, {"transcription": ">编号:MC545715483585", "label": "other", "points": [[1462, 470], [2054, 470], [2054, 543], [1462, 543]], "id": 10, "linking": []}, {"transcription": "CHINAORGANDONATION", "label": "other", "points": [[543, 516], [958, 516], [958, 551], [543, 551]], "id": 14, "linking": []}, {"transcription": "中国人体器官捐献志愿登记表", "label": "header", "points": [[635, 793], [1892, 793], [1892, 904], [635, 904]], "id": 18, "linking": []}]

...

```

文本文件中默认请将图片路径和图片标签用 `\t` 分割，如用其他方式分割将造成训练报错。

其中图像标注信息字符串经过json解析之后可以得到一个列表信息，列表中每个元素是一个字典，存储了每个文本行的需要信息，各个字段的含义如下。

transcription: 存储了文本行的文字内容
label: 该文本行内容所属的类别
points: 存储文本行的四点位置信息
id: 存储文本行的id信息，用于RE任务的训练
linking: 存储文本行的之间的连接信息，用于RE任务的训练

（2）验证集

验证集构建方式与训练集相同。

（3）字典文件

训练集与验证集中的文本行包含标签信息，所有标签的列表存在字典文件中（如`class_list.txt`），字典文件中的每一行表示为一个类别名称。

以XFUND_zh数据为例，共包含4个类别，字典文件内容如下所示。

```text linenums="1"

OTHER

QUESTION

ANSWER

HEADER

```

在标注文件中，每个标注的文本行内容的`label`字段标注信息需要属于字典内容。

最终数据集应有如下文件结构：

```text linenums="1"

|-train_data

|-data_name

|- train.json

|- train

|- zh_train_0.png

|- zh_train_1.jpg

| ...

|- val.json

|- val

|- zh_val_0.png

|- zh_val_1.jpg

| ...

```

标注文件中的类别信息不区分大小写，如`HEADER`与`header`会被解析为相同的类别id，因此在标注的时候，不能使用小写处理后相同的字符串表示不同的类别。
在整理标注文件的时候，建议将other这个类别（其他，无需关注的文本行可以标注为other）放在第一行，在解析的时候，会将`other`类别的类别id解析为0，后续不会对该类进行可视化。

步骤5：在项目跟目录新建train_data,将XFUND解压到该目录中

步骤6：开始训练、评估kie模型

2.1. 启动训练

如果你没有使用自定义数据集，可以使用PaddleOCR中已经处理好的XFUND_zh数据集进行快速体验。

```bash linenums="1"

mkdir train_data

cd train_data

wget https://paddleocr.bj.bcebos.com/ppstructure/dataset/XFUND.tar && tar -xf XFUND.tar

cd ..

```

如果不希望训练，直接体验后面的模型评估、预测、动转静、推理的流程，可以下载PaddleOCR中提供的预训练模型，并跳过2.1部分。

使用下面的方法，下载基于XFUND数据的SER与RE任务预训练模型。

```bash linenums="1"

mkdir pretrained_model

cd pretrained_model

下载并解压SER预训练模型

wget https://paddleocr.bj.bcebos.com/ppstructure/models/vi_layoutxlm/ser_vi_layoutxlm_xfund_pretrained.tar & tar -xf ser_vi_layoutxlm_xfund_pretrained.tar

下载并解压RE预训练模型

wget https://paddleocr.bj.bcebos.com/ppstructure/models/vi_layoutxlm/re_vi_layoutxlm_xfund_pretrained.tar & tar -xf re_vi_layoutxlm_xfund_pretrained.tar

```

开始训练:

如果您安装的是cpu版本，请将配置文件中的 `use_gpu` 字段修改为false
PaddleOCR在训练时，会默认下载VI-LayoutXLM预训练模型，这里无需预先下载。

```bash linenums="1"

GPU训练支持单卡，多卡训练

训练日志会自动保存到配置文件中"{Global.save_model_dir}" 下的train.log文件中

SER单卡训练

python3 tools/train.py -c configs/kie/vi_layoutxlm/ser_vi_layoutxlm_xfund_zh.yml

SER多卡训练，通过--gpus参数指定卡号

python3 -m paddle.distributed.launch --gpus '0,1,2,3' tools/train.py -c configs/kie/vi_layoutxlm/ser_vi_layoutxlm_xfund_zh.yml

RE任务单卡训练

python3 tools/train.py -c configs/kie/vi_layoutxlm/re_vi_layoutxlm_xfund_zh.yml

```

以SER任务为例，正常启动训练后，会看到以下log输出：

```bash linenums="1"

PaddleOCROCR关键信息抽取训练过程

2.1. 启动训练

下载并解压SER预训练模型

下载并解压RE预训练模型

GPU训练 支持单卡，多卡训练

训练日志会自动保存到 配置文件中"{Global.save_model_dir}" 下的train.log文件中

SER单卡训练

SER多卡训练，通过--gpus参数指定卡号

RE任务单卡训练

GPU训练支持单卡，多卡训练

训练日志会自动保存到配置文件中"{Global.save_model_dir}" 下的train.log文件中