【自然语言处理】第3部分:识别文本中的个人身份信息

自我介绍

  • 做一个简单介绍,酒架 年近48 ,有20多年IT工作经历,目前在一家500强做企业架构.因为工作需要,另外也因为兴趣涉猎比较广,为了自己学习建立了三个博客,分别是【全球IT瞭望】,【架构师酒馆】和【开发者开聊】,有更多的内容分享,谢谢大家收藏。
  • 企业架构师需要比较广泛的知识面,了解一个企业的整体的业务,应用,技术,数据,治理和合规。之前4年主要负责企业整体的技术规划,标准的建立和项目治理。最近一年主要负责数据,涉及到数据平台,数据战略,数据分析,数据建模,数据治理,还涉及到数据主权,隐私保护和数据经济。 因为需要,比如数据资源入财务报表,另外数据如何估值和货币化需要财务和金融方面的知识,最近在学习财务,金融和法律。打算先备考CPA,然后CFA,如果可能也想学习法律,备战律考。
  • 欢迎爱学习的同学朋友关注,也欢迎大家交流。微信小号【ca_cea】

在文本文档中查找个人身份信息(PII)可能很有用,原因有几个,但我多次遇到的一个用例是帮助匿名文本,以便:

  • 与第三方共享数据
  • 遵守GDPR等法规要求
  • 将PII替换为模拟数据,用作机器学习和其他探索性分析的训练数据

我将尝试自动化查找PII的过程,在本系列文章中,我们将探索一些流行的开源工具和技术,以便在我们自己的数据中识别不同类型的PII。

到目前为止,我们已经找到了查找人名、电子邮件地址、电话号码和信用卡号码的方法。让我们看看我们还能找到哪些其他类型的PII。

介绍Hugging Face

Hugging Face是一个流行的Python库,包含预先训练的人工智能模型,可用于各种自然语言处理(NLP)任务,包括命名实体识别(NER)。正如我们在前几篇文章中所讨论的,NER是一种非常有用的检测文本中PII的技术。

Python示例

让我们看看我们将如何使用拥抱脸。

先决条件:

应至少安装TensorFlow 2.0或PyTorch中的一个。然后在您选择的终端中键入以下内容:

复制代码
pip install transformers

我们将尝试看看"拥抱脸"在识别某些文本中的位置方面做得有多好:

复制代码
from transformers import pipeline

ner = pipeline("ner", grouped_entities=True)

sequence = "In west Philadelphia born and raised. On the playground was where I spent most of my days. "
sequence += "I got in one little fight and my mom got scared. "
sequence += "She said 'You're movin' with your auntie and uncle in Bel Air'!"

output = ner(sequence)

print(output)

让我们看看这个代码打印的内容:

{'entity_group': 'LOC', 'score': 0.99.., 'word': 'Philadelphia', 'start': 8, 'end': 20}, {'entity_group': 'LOC', 'score': 0.99.., 'word': 'Bel Air', 'start': 194, 'end': 201}

它只使用默认的英语语言模型和设置就很好地检测到了这两个位置词。给人印象深刻的

根据我的经验,"拥抱脸"在检测位置方面比我们迄今为止讨论的其他工具要好,所以如果发现位置对你来说很重要,那么一定要试一试。它非常灵活,周围有一个很大的社区,有很好的文档,并且被广泛使用。

结论

我们不仅继续将PII类型添加到我们能够找到的列表中,而且我们也在慢慢提高质量,给自己足够的知识来选择最适合这份工作的工具。

我们将在随后的文章中继续这段旅程,所以请观看此空间以获得更多刺激(嗯......我们中的一些人喜欢这些东西!)。

本文:【自然语言处理】第3部分:识别文本中的个人身份信息 | 开发者开聊

欢迎收藏 【全球IT瞭望】,【架构师酒馆】和【开发者开聊】.

相关推荐
米小虾32 分钟前
Agent Skill 规范与 Skill-Creator 核心思想
人工智能·agent
ZhengEnCi40 分钟前
09e-斯坦福CS336作业四:大规模语言模型训练数据收集与处理
人工智能
oil欧哟1 小时前
Codex 最佳实践(超级长文):先搞懂 AI,再用好 AI
前端·人工智能·后端
甲维斯1 小时前
日本发布比肩Fable5的模型?Fugu Ultra初探!
人工智能·ai编程
雪隐1 小时前
个人电脑玩AI-04让5060 Ti给你打工——本地FLUX.2 Klein 的 AI 图片生成
人工智能·后端
腾讯云开发者1 小时前
腾讯云TVP走进香港数码港,解码AI出海新范式
人工智能
用户47949283569152 小时前
又当又立: Anthropic 这篇安全白皮书,为什么让人恶心
人工智能
Darling噜啦啦2 小时前
AI Loop 自迭代循环实战:让 AI 自动写文案直到完美——从 Prompt 工程到 Loop 工程
人工智能
vanuan2 小时前
MCP协议实战(Python版):让AI直接查你的数据库
人工智能
Vuhao2 小时前
为什么同样的问题,别人的AI回答质量高40%?
人工智能