使用python进行自然语言处理的示例

程序功能

分词:将输入句子拆分为单词。

词性标注:为每个单词标注其词性。

命名实体识别:识别命名实体(如人名、地名、组织等)。

这段代码展示了如何用 nltk 进行基础的 NLP 任务,包括分词、词性标注和命名实体识别。

代码

python 复制代码
import nltk
from nltk.tokenize import word_tokenize
from nltk.tag import pos_tag
from nltk.chunk import ne_chunk

# 下载nltk需要的资源
nltk.download('punkt')
nltk.download('averaged_perceptron_tagger')
nltk.download('maxent_ne_chunker')
nltk.download('words')

# 输入的示例句子
sentence = "Sun Wukong, the Monkey King, traveled from China to India with Tang Sanzang."

# 1. 分词
tokens = word_tokenize(sentence)
print("分词结果:", tokens)

# 2. 词性标注
tagged = pos_tag(tokens)
print("词性标注结果:", tagged)

# 3. 命名实体识别
entities = ne_chunk(tagged)
print("命名实体识别结果:")
print(entities)
相关推荐
信创DevOps先锋几秒前
开源中国全栈式AI教育解决方案亮相 破解高校科研与人才培养双重痛点
人工智能·开源
QQ676580084 分钟前
城市治理之河道污染识别 无人机河道污染巡检 塑料带识别 瓶子图像识别 深度学习垃圾识别第10384期
人工智能·深度学习·yolo·河道污染·无人机河道污染·瓶子图像·塑料袋识别
风象南4 分钟前
当技术解决了一切“怎么做”,人类还剩下什么?
人工智能
skilllite作者9 分钟前
SkillLite 多入口架构实战:CLI / Python SDK / MCP / Desktop / Swarm 一页理清
开发语言·人工智能·python·安全·架构·rust·agentskills
2501_9333295510 分钟前
技术深度剖析:Infoseek 字节探索舆情处置系统的全链路架构与核心实现
大数据·数据仓库·人工智能·自然语言处理·架构
网安情报局11 分钟前
RSAC 2026深度解析:AI对抗AI成主流,九大安全能力全面升级
人工智能·网络安全
key_3_feng11 分钟前
揭秘AI的“语言积木“:Token科普之旅
人工智能·搜索引擎·token
代码丰12 分钟前
Zero Code Studio:LangChain4j 工具调用 + LangGraph4j 工作流双模式的 AI 网站生成系统
java·人工智能
人工智能培训12 分钟前
多模态AI模型融合难?核心问题与解决思路
人工智能·机器学习·prompt·agent·智能体
FAFU_kyp12 分钟前
AP2 (Agent Payments Protocol) 技术流程详细解析
人工智能