【自然语言处理】第3部分:识别文本中的个人身份信息

自我介绍

  • 做一个简单介绍,酒架 年近48 ,有20多年IT工作经历,目前在一家500强做企业架构.因为工作需要,另外也因为兴趣涉猎比较广,为了自己学习建立了三个博客,分别是【全球IT瞭望】,【架构师酒馆】和【开发者开聊】,有更多的内容分享,谢谢大家收藏。
  • 企业架构师需要比较广泛的知识面,了解一个企业的整体的业务,应用,技术,数据,治理和合规。之前4年主要负责企业整体的技术规划,标准的建立和项目治理。最近一年主要负责数据,涉及到数据平台,数据战略,数据分析,数据建模,数据治理,还涉及到数据主权,隐私保护和数据经济。 因为需要,比如数据资源入财务报表,另外数据如何估值和货币化需要财务和金融方面的知识,最近在学习财务,金融和法律。打算先备考CPA,然后CFA,如果可能也想学习法律,备战律考。
  • 欢迎爱学习的同学朋友关注,也欢迎大家交流。微信小号【ca_cea】

在文本文档中查找个人身份信息(PII)可能很有用,原因有几个,但我多次遇到的一个用例是帮助匿名文本,以便:

  • 与第三方共享数据
  • 遵守GDPR等法规要求
  • 将PII替换为模拟数据,用作机器学习和其他探索性分析的训练数据

我将尝试自动化查找PII的过程,在本系列文章中,我们将探索一些流行的开源工具和技术,以便在我们自己的数据中识别不同类型的PII。

到目前为止,我们已经找到了查找人名、电子邮件地址、电话号码和信用卡号码的方法。让我们看看我们还能找到哪些其他类型的PII。

介绍Hugging Face

Hugging Face是一个流行的Python库,包含预先训练的人工智能模型,可用于各种自然语言处理(NLP)任务,包括命名实体识别(NER)。正如我们在前几篇文章中所讨论的,NER是一种非常有用的检测文本中PII的技术。

Python示例

让我们看看我们将如何使用拥抱脸。

先决条件:

应至少安装TensorFlow 2.0或PyTorch中的一个。然后在您选择的终端中键入以下内容:

复制代码
pip install transformers

我们将尝试看看"拥抱脸"在识别某些文本中的位置方面做得有多好:

复制代码
from transformers import pipeline

ner = pipeline("ner", grouped_entities=True)

sequence = "In west Philadelphia born and raised. On the playground was where I spent most of my days. "
sequence += "I got in one little fight and my mom got scared. "
sequence += "She said 'You're movin' with your auntie and uncle in Bel Air'!"

output = ner(sequence)

print(output)

让我们看看这个代码打印的内容:

{'entity_group': 'LOC', 'score': 0.99.., 'word': 'Philadelphia', 'start': 8, 'end': 20}, {'entity_group': 'LOC', 'score': 0.99.., 'word': 'Bel Air', 'start': 194, 'end': 201}

它只使用默认的英语语言模型和设置就很好地检测到了这两个位置词。给人印象深刻的

根据我的经验,"拥抱脸"在检测位置方面比我们迄今为止讨论的其他工具要好,所以如果发现位置对你来说很重要,那么一定要试一试。它非常灵活,周围有一个很大的社区,有很好的文档,并且被广泛使用。

结论

我们不仅继续将PII类型添加到我们能够找到的列表中,而且我们也在慢慢提高质量,给自己足够的知识来选择最适合这份工作的工具。

我们将在随后的文章中继续这段旅程,所以请观看此空间以获得更多刺激(嗯......我们中的一些人喜欢这些东西!)。

本文:【自然语言处理】第3部分:识别文本中的个人身份信息 | 开发者开聊

欢迎收藏 【全球IT瞭望】,【架构师酒馆】和【开发者开聊】.

相关推荐
渡我白衣22 分钟前
AI应用层革命(七)——智能体的终极形态:认知循环体的诞生
人工智能·深度学习·神经网络·目标检测·microsoft·机器学习·自然语言处理
Wnq100725 小时前
世界模型 AI:认知跃迁的可行性与本质性挑战
人工智能
穷人小水滴5 小时前
科幻 「备用肉身虫」 系列设定集 (AI 摘要)
人工智能·aigc·科幻·未来·小说·设定
老赵聊算法、大模型备案5 小时前
北京市生成式人工智能服务已备案信息公告(2025年12月11日)
人工智能·算法·安全·aigc
咬人喵喵5 小时前
上下文窗口:AI 的“大脑容量”
人工智能
workflower5 小时前
时序数据获取事件
开发语言·人工智能·python·深度学习·机器学习·结对编程
weixin_446122465 小时前
一个案例验证 LLM大模型编码能力哪家强
人工智能
C++业余爱好者6 小时前
Java 提供了8种基本数据类型及封装类型介绍
java·开发语言·python
老蒋新思维6 小时前
创客匠人峰会深度解析:知识变现的 “信任 - 效率” 双闭环 —— 从 “单次交易” 到 “终身复购” 的增长密码
大数据·网络·人工智能·tcp/ip·重构·数据挖掘·创客匠人
大刘讲IT7 小时前
面向中小企业的企业AI Agent未来3年构建蓝图规划
人工智能·经验分享·ai·开源·制造