智能化文档开发(DI)

  • 这个文档涉及到多模态(文本、发票、订单、语音)
    对于普通的文本,我们希望对某些实体的某些属性挖空生成文档模版,并根据预设字段填空最后生成正式文件
  • 对于发票、订单,我们想提取它的字段信息,写入DB
  • 对于一些审批、建议语音条,我们想要把它识别为文字并提取关键字,最为后续流程的依据

DI = 文本理解 + 文本生成 + 文本纠错 + 前端外壳

💡 最后所有模型都训好之后,和后端逻辑一起封装到api中调用

🌟 KIT VS UIE

任务流成果展示

🎈 挖空任务

💦 1、基于正则表达式挖空

💦 2、基于实体属性字段挖空

首先需要使用doccano对文档做字段标注,导出标注好的数据集转换为UIX可用的训练格式,在UIE上进行微调训练得出模型A,在调用挖空后端代码时,需要加载微调好的预训练模型做指导,这样我们就可以基于A的偏好来对任意文件中的类似实体字段进行挖空

  • 文本标注
  • 训练模型
  • 导入挖空后端逻辑
  • Bug(模型文件缺inference.pdmodel文件)

最后生成的文本是否流程、地道,还需要接入评判模型来干预

Bert主要用于理解文本,后续生成文本预计使用qwen、llama或gpt

🎈 发票、合同文字提取

这里应该得在我们的采购领域、招标领域等再训练一个文字识别模型来提升检测识别精度(现在有根据一些公开数据集(发票)的预训练模型,如果在我们的数据集上正确率达标就不需要训练)

🎈 语音任务

🙏 致谢

PaddleNLP UIE--小样本快速提升性能(含doccona标注)

PaddleNLP信息抽取,uie微调打造自己专属的信息抽取模型

如何使用文本标注工具------doccano?

PP-Structure文档分析

PP-OCR 文本检测识别

相关推荐
玄同7654 小时前
LangChain v1.0+ Prompt 模板完全指南:构建精准可控的大模型交互
人工智能·语言模型·自然语言处理·langchain·nlp·交互·知识图谱
名为沙丁鱼的猫7291 天前
【MCP 协议层(Protocol layer)详解】:深入分析MCP Python SDK中协议层的实现机制
人工智能·深度学习·神经网络·机器学习·自然语言处理·nlp
桂花很香,旭很美1 天前
基于 MCP 的 LLM Agent 实战:架构设计与工具编排
人工智能·nlp
aoqDrPjNRbKr1 天前
PMSM永磁同步电机无传感器仿真 simulink仿真 SMO滑模观测器 PLL锁相环 无速度...
nlp
玄同7652 天前
告别 AgentExecutor:LangChain v1.0+ Agent 模块深度迁移指南与实战全解析
人工智能·语言模型·自然语言处理·langchain·nlp·agent·智能体
童话名剑2 天前
自然语言处理(吴恩达深度学习笔记)
人工智能·深度学习·机器学习·自然语言处理·nlp·词嵌入
阿龙AI日记3 天前
快速学会BERT模型!
深度学习·自然语言处理·nlp·bert
一招定胜负3 天前
回顾:cbow连续词袋与词嵌入
人工智能·自然语言处理·nlp
诸神缄默不语3 天前
如何用Python调用智谱清言GLM系API实现智能问答
python·ai·大模型·nlp·chatglm·glm·智谱清言
玄同7653 天前
LangChain v1.0+ Memory 全类型指南:构建上下文感知大模型应用的核心方案
人工智能·语言模型·自然语言处理·langchain·nlp·知识图谱·向量数据库