深度学习速通系列:超长法律文件隐私过滤(基于预训练模型Bert)

法律文件隐私过滤

网上使用bert的中文模型进行命名识别教程少的可怜,摸索了一周的时间,硬是把法律文书的人名全部识别出来了,目前可以达到98.9999%(开玩笑的,不过准确率保守估计是有90%以上).注意:这个法律文书目前只是针对裁决书,其他还没测试过,可支持超长文本识别

github仓库地址

欢迎各位点个☆Star!!!

使用的模型

bert-base-chinese-ner 下载路径:https://hf-mirror.com/ckiplab/bert-base-chinese-ner (国内镜像,不用魔法也能访问)

下载好,直接放在当前目录下

使用步骤

python 复制代码
1.先去下载模型,放在当前目录下
2.将里面的text改成你的文本,即"text=''' 你的法律文书内容''' "
3.全局搜索from_pretrained,后面的两处路径都改成模型的绝对路径
4.启动person_filterling.py文件
5.在当前目录找到一个.docx文件,直接打开,就可以看到识别后的文件了

提醒

虽然项目只是针对了法律文书进行了调整,也可以尝试使用其他类型文本,效果应该也是可观的

相关推荐
肖永威1 分钟前
macOS环境安装/卸载python实践笔记
笔记·python·macos
后端小肥肠17 分钟前
别再盲目抽卡了!Seedance 2.0 成本太高?教你用 Claude Code 100% 出片
人工智能·aigc·agent
TechWJ17 分钟前
PyPTO编程范式深度解读:让NPU开发像写Python一样简单
开发语言·python·cann·pypto
每日新鲜事23 分钟前
热销复盘:招商林屿缦岛203套售罄背后的客户逻辑分析
大数据·人工智能
枷锁—sha25 分钟前
【SRC】SQL注入WAF 绕过应对策略(二)
网络·数据库·python·sql·安全·网络安全
Coder_Boy_29 分钟前
基于SpringAI的在线考试系统-考试系统开发流程案例
java·数据库·人工智能·spring boot·后端
abluckyboy40 分钟前
Java 实现求 n 的 n^n 次方的最后一位数字
java·python·算法
挖坑的张师傅1 小时前
对 AI Native 架构的一些思考
人工智能
喵手1 小时前
Python爬虫实战:构建各地统计局数据发布板块的自动化索引爬虫(附CSV导出 + SQLite持久化存储)!
爬虫·python·爬虫实战·零基础python爬虫教学·采集数据csv导出·采集各地统计局数据发布数据·统计局数据采集
LinQingYanga1 小时前
极客时间多模态大模型训练营毕业总结(2026年2月8日)
人工智能