深度学习速通系列:超长法律文件隐私过滤(基于预训练模型Bert)

法律文件隐私过滤

网上使用bert的中文模型进行命名识别教程少的可怜,摸索了一周的时间,硬是把法律文书的人名全部识别出来了,目前可以达到98.9999%(开玩笑的,不过准确率保守估计是有90%以上).注意:这个法律文书目前只是针对裁决书,其他还没测试过,可支持超长文本识别

github仓库地址

欢迎各位点个☆Star!!!

使用的模型

bert-base-chinese-ner 下载路径:https://hf-mirror.com/ckiplab/bert-base-chinese-ner (国内镜像,不用魔法也能访问)

下载好,直接放在当前目录下

使用步骤

python 复制代码
1.先去下载模型,放在当前目录下
2.将里面的text改成你的文本,即"text=''' 你的法律文书内容''' "
3.全局搜索from_pretrained,后面的两处路径都改成模型的绝对路径
4.启动person_filterling.py文件
5.在当前目录找到一个.docx文件,直接打开,就可以看到识别后的文件了

提醒

虽然项目只是针对了法律文书进行了调整,也可以尝试使用其他类型文本,效果应该也是可观的

相关推荐
豪越大豪1 分钟前
Al+新型智慧消防一体化安全管控平台!办公 + 训练 + 安防一起管
人工智能·深度学习·安全
胡乱编胡乱赢4 分钟前
联邦学习中Decaf攻击的具体实现流程
深度学习·机器学习·联邦学习·decaf攻击·decaf攻击具体实现流程·数学分解
山土成旧客4 分钟前
【Python学习打卡-Day17】从二分类到多分类:ROC曲线、三大平均指标与风控利器MCC/KS
python·学习·分类
沫儿笙4 分钟前
柯马弧焊机器人气流智能调节
人工智能·物联网·机器人
love530love7 分钟前
【SD WebUI踩坑】启动报错 Expecting value: line 1 column 1 (char 0) 的终极解决方案
人工智能·windows·python·github·stablediffusion
木棉知行者7 分钟前
【第5篇】InceptionNeXT(CVPR2024):融合 Inception 思想与现代 CNN 设计的高效特征提取架构
人工智能·深度学习·计算机视觉·cnn
曲幽7 分钟前
Flask入门实战:轻松掌握模板渲染与静态文件加载
css·python·html·web·js·image·templates·assets
技术支持者python,php9 分钟前
训练分类识别器
人工智能·分类·数据挖掘
DX_水位流量监测10 分钟前
管网液位计的技术特性与工程应用解析
大数据·网络·人工智能·信息可视化·架构
paperxie_xiexuo10 分钟前
从数据到话语:面向期刊知识转化的智能写作协同机制研究
大数据·人工智能·ai写作·期刊论文