【自然语言处理】实验二：基于NLP工具的词性标注实验

目录

前言

1.词性标注模块

[1.1 导入中文文本](#1.1 导入中文文本)

[1.2 给出字典映射](#1.2 给出字典映射)

[1.3 cut词性标注](#1.3 cut词性标注)

[1.4 lcut词性标注](#1.4 lcut词性标注)

2.统计人名次数

[2.1 精确模式](#2.1 精确模式)

[2.2 统计存储单词](#2.2 统计存储单词)

[2.3 生成文本输出](#2.3 生成文本输出)

🌈嗨！我是Filotimo__🌈。很高兴与大家相识，希望我的博客能对你有所帮助。

💡本文由Filotimo__✍️原创，首发于CSDN📚。

📣如需转载，请事先与我联系以获得授权⚠️。

🎁欢迎大家给我点赞👍、收藏⭐️，并在留言区📝与我互动，这些都是我前进的动力！

🌟我的格言：森林草木都有自己认为对的角度🌟。

前言

词性标注是自然语言处理中的一种任务，是指为文本中的每一个词分配一个相应的词性标签，即确定每个单词是名词、动词、形容词或者其他词性的过程。

实验步骤：

1.词性标注模块

1.1 导入中文文本

导入jieba库中的词性标注模块和中文文本

代码：

python 复制代码

import jieba.posseg as psg
sentence ="""现如今，人工智能已经成为大众耳熟能详的词汇，而自然语言处理却很少有人了解，
自然语言处理属于人工智能的一个子领域，它对计算机和人类的交互方式有许多重要的影响。"""

1.2 给出字典映射

给出词性标注的标签含义字典映射，便于输出结果查看

代码：

python 复制代码

dict_en2cn = {
    'a': '形容词', 'ad': '副形词', 'ag': '形语素', 'an': '名形词', 'b': '区别词',
    'c': '连词', 'd': '副词', 'df': '不要', 'dg': '副语素',
    'e': '叹词', 'f': '方位词', 'g': '语素', 'h': '前接成分',
    'i': '成语', 'j': '简称略语', 'k': '后接成分', 'l': '习用语',
    'm': '数词', 'mg': '数语素', 'mq': '数量词',
    'n': '名词', 'ng': '名语素', 'nr': '人名', 'nrg': '古代人名', 'nrt': '外国人名',
    'ns': '地名', 'nt': '机构团体', 'nz': '其他专名',
    'o': '拟声词', 'p': '介词', 'q': '量词',
    'r': '代词', 'rg': '代语素', 'rr': '代词', 'rz': '代词',
    's': '处所词', 't': '时间词', 'tg': '时间语素',
    'u': '助词', 'ud': '得', 'ug': '过', 'uj': '的', 'ul': '了', 'uv': '地', 'uz': '着',
    'v': '动词', 'vd': '副动词', 'vg': '动语素', 'vi': '动词', 'vn': '名动词', 'vq': '动词',
    'x': '非语素字', 'y': '语气词', 'z': '状态词', 'zg': '状态语素'
}

1.3 cut词性标注

利用词性标注方法cut进行词性标注

代码：

python 复制代码

sent_psg = psg.cut(sentence)  
psg_list = []
for word, pos in sent_psg:
    psg1 = '{0}/{1}'.format(word, pos)  
    psg_list.append(psg1)  
print("词性标注的结果为:", "".join(psg_list))

截图：

1.4 lcut词性标注

利用词性标注方法lcut进行词性标注

代码：

python 复制代码

seg_list = psg.lcut(sentence) 
print('词性标注的结果为:', seg_list)

截图：

2.统计人名次数

利用词性标注进行一个简单应用：统计文本中出现的人名(词性为nr)，并按出现次数从大到小排序输出

2.1 精确模式

读取文本并使用精确模式对文本进行词性标注(包括分词)

代码：

python 复制代码

text = open('./Desktop/实验二.txt', 'r', encoding='utf-8').read()
text_psg = psg.lcut(text)
print('人物名词性标注为:\n', ''.join(['{0}/{1}'.format(w, t) for w, t in text_psg]))

截图：

说明：运行代码前，先在桌面上新建文本，我将其命名为"实验二"，文本内容如下：

林黛玉

薛宝钗

贾宝玉

贾元春

贾迎春

贾探春

贾惜春

李纨

妙玉

史湘云

王熙凤

巧姐

秦可卿

林黛玉

薛宝钗

贾探春

李纨

妙玉

史湘云

王熙凤

林黛玉

薛宝钗

秦可卿

2.2 统计存储单词

统计词性为nr且长度>1的单词，存储在字典中

代码：

python 复制代码

name_counts = {}
for word_pair in text_psg:
    if len(word_pair.word) == 1:
        continue
    else:
        if word_pair.flag == 'nr':
            name_counts[word_pair.word] = name_counts.get(word_pair.word, 0) + 1
print('人物名词统计结果:', name_counts)

截图：

2.3 生成文本输出

将字典中统计数据进行排序并输出

代码：

python 复制代码

item = name_counts.items() 
items = list(item) 
items.sort(key=lambda x: x[1], reverse=True) 

name_list = open('人名及出现次数.txt', 'w', encoding='utf-8')
for i in range(len(items)):
    name = items[i][0]
    count = items[i][1]
    name_count = name + str(count)
    name_list.write(name_count + '\n')
name_list.close()

截图：

说明：在文件夹目录下查看统计结果。