深度学习速通系列:超长法律文件隐私过滤(基于预训练模型Bert)

法律文件隐私过滤

网上使用bert的中文模型进行命名识别教程少的可怜,摸索了一周的时间,硬是把法律文书的人名全部识别出来了,目前可以达到98.9999%(开玩笑的,不过准确率保守估计是有90%以上).注意:这个法律文书目前只是针对裁决书,其他还没测试过,可支持超长文本识别

github仓库地址

欢迎各位点个☆Star!!!

使用的模型

bert-base-chinese-ner 下载路径:https://hf-mirror.com/ckiplab/bert-base-chinese-ner (国内镜像,不用魔法也能访问)

下载好,直接放在当前目录下

使用步骤

python 复制代码
1.先去下载模型,放在当前目录下
2.将里面的text改成你的文本,即"text=''' 你的法律文书内容''' "
3.全局搜索from_pretrained,后面的两处路径都改成模型的绝对路径
4.启动person_filterling.py文件
5.在当前目录找到一个.docx文件,直接打开,就可以看到识别后的文件了

提醒

虽然项目只是针对了法律文书进行了调整,也可以尝试使用其他类型文本,效果应该也是可观的

相关推荐
AI浩34 分钟前
PaveSync:用于路面病害分析与分类的统一综合数据集
人工智能·机器学习·分类·数据挖掘
code 小楊36 分钟前
通义千问Wan2.7系统图像&视频模型全解析(含实测测评+多模型对比+核心数据)
人工智能·计算机视觉
deephub38 分钟前
机器学习特征工程:缩放、编码、聚合、嵌入与自动化
人工智能·python·机器学习·特征工程
小龙报2 小时前
【Coze-AI智能体平台】Coze智能体实操:翻译助手从工作流搭建到应用发布全流程详解
人工智能·深度学习·计算机视觉·chatgpt·语音识别·文心一言·集成学习
科雷软件测试5 小时前
Python中itertools.product:快速生成笛卡尔积
开发语言·python
IT_陈寒7 小时前
React Hooks闭包陷阱:你以为的state可能早就过期了
前端·人工智能·后端
派大星~课堂8 小时前
【力扣-142. 环形链表2 ✨】Python笔记
python·leetcode·链表
Thomas.Sir8 小时前
第一章:Agent智能体开发实战之【初步认识 LlamaIndex:从入门到实操】
人工智能·python·ai·检索增强·llama·llamaindex
笨笨饿8 小时前
29_Z变换在工程中的实际意义
c语言·开发语言·人工智能·单片机·mcu·算法·机器人
boy快快长大8 小时前
【大模型应用开发】记忆
人工智能