技术栈

文本清洗

仰望尾迹云
5 小时前
paddlepaddle· 正则表达式· 文本清洗
PaddlePaddle镜像中的正则表达式预处理技巧在中文文档自动化处理的现实场景中,我们常常面临一个尴尬的问题:模型明明训练得不错,推理时却频频出错。深挖原因后发现,问题并不出在模型本身,而是输入数据“太脏”——扫描件上的水印、格式符号、脱敏号码、乱码字符混杂在一起,直接喂给OCR或NLP模型,结果自然不可控。
我是有底线的