- 这个文档涉及到多模态(文本、发票、订单、语音)
对于普通的文本,我们希望对某些实体的某些属性挖空生成文档模版,并根据预设字段填空最后生成正式文件- 对于发票、订单,我们想提取它的字段信息,写入DB
- 对于一些审批、建议语音条,我们想要把它识别为文字并提取关键字,最为后续流程的依据
DI = 文本理解 + 文本生成 + 文本纠错 + 前端外壳
💡 最后所有模型都训好之后,和后端逻辑一起封装到api中调用
🌟 KIT VS UIE

任务流成果展示
🎈 挖空任务
💦 1、基于正则表达式挖空

💦 2、基于实体属性字段挖空
首先需要使用doccano对文档做字段标注,导出标注好的数据集转换为UIX可用的训练格式,在UIE上进行微调训练得出模型A,在调用挖空后端代码时,需要加载微调好的预训练模型做指导,这样我们就可以基于A的偏好来对任意文件中的类似实体字段进行挖空
- 文本标注
- 训练模型
- 导入挖空后端逻辑
- Bug(模型文件缺inference.pdmodel文件)
最后生成的文本是否流程、地道,还需要接入评判模型来干预
Bert主要用于理解文本,后续生成文本预计使用qwen、llama或gpt
🎈 发票、合同文字提取
这里应该得在我们的采购领域、招标领域等再训练一个文字识别模型来提升检测识别精度(现在有根据一些公开数据集(发票)的预训练模型,如果在我们的数据集上正确率达标就不需要训练)
🎈 语音任务
🙏 致谢
PaddleNLP UIE--小样本快速提升性能(含doccona标注)