深度学习速通系列:超长法律文件隐私过滤(基于预训练模型Bert)

法律文件隐私过滤

网上使用bert的中文模型进行命名识别教程少的可怜,摸索了一周的时间,硬是把法律文书的人名全部识别出来了,目前可以达到98.9999%(开玩笑的,不过准确率保守估计是有90%以上).注意:这个法律文书目前只是针对裁决书,其他还没测试过,可支持超长文本识别

github仓库地址

欢迎各位点个☆Star!!!

使用的模型

bert-base-chinese-ner 下载路径:https://hf-mirror.com/ckiplab/bert-base-chinese-ner (国内镜像,不用魔法也能访问)

下载好,直接放在当前目录下

使用步骤

python 复制代码
1.先去下载模型,放在当前目录下
2.将里面的text改成你的文本,即"text=''' 你的法律文书内容''' "
3.全局搜索from_pretrained,后面的两处路径都改成模型的绝对路径
4.启动person_filterling.py文件
5.在当前目录找到一个.docx文件,直接打开,就可以看到识别后的文件了

提醒

虽然项目只是针对了法律文书进行了调整,也可以尝试使用其他类型文本,效果应该也是可观的

相关推荐
学生信的大叔10 分钟前
【Python自动化】Ubuntu24.04配置Selenium并测试
python·selenium·自动化
limengshi13839214 分钟前
机器学习面试:请介绍几种常用的学习率衰减方式
人工智能·学习·机器学习
AKAMAI35 分钟前
Sport Network 凭借 Akamai 实现卓越成就
人工智能·云原生·云计算
周末程序猿1 小时前
机器学习|大模型为什么会出现"幻觉"?
人工智能
JoannaJuanCV1 小时前
大语言模型基石:Transformer
人工智能·语言模型·transformer
飞哥数智坊1 小时前
Qoder vs CodeBuddy,刚起步就收费,值吗?
人工智能·ai编程
强盛小灵通专卖员1 小时前
闪电科创,深度学习辅导
人工智能·sci·小论文·大论文·延毕
诗句藏于尽头1 小时前
Django模型与数据库表映射的两种方式
数据库·python·django
通街市密人有1 小时前
IDF: Iterative Dynamic Filtering Networks for Generalizable Image Denoising
人工智能·深度学习·计算机视觉
大千AI助手1 小时前
TruthfulQA:衡量语言模型真实性的基准
人工智能·语言模型·自然语言处理·llm·模型评估·truthfulqa·事实性基准