如何利用pynlpir进行中文分词并保留段落信息

一、引言

nlpir是由张华平博士开发的中文自然处理工具,可以对中文文本进行分词、聚类分析等,它既有在线的中文数据大数据语义智能分析平台,也有相关的python包pynlpir,其github的地址是:

Pynlpir在Github上的地址

这个包的使用是免费的,但是授权文件需要每个月更新一次。

二、利用pynlpir进行分词

1.安装模块

首先要安装这个模块,安装方法是在cmd命令行下输入:

python 复制代码
pip install pynlpir

2. 更新授权

安装后还可能需要更新一下授权

python 复制代码
pynlpir update

3. 开始批量分词

1)基础分词

python 复制代码
import pynlpir
pynlpir.open()
s = '欢迎科研人员、技术工程师、企事业单位与个人参与NLPIR平台的建设工作。'
segs = pynlpir.segment(s)
for seg in segs:
    print(seg)

显示结果:

基本使用方法

2)批量分词

主要是采用os模块批量读取当前目录下的txt文件,然后分别按段落读取、分词、标注。词与标注信息之前中【】来连接,两个词之间用【|】,段落之间加入换行符号,然后写入到【seg】开头的txt文件里。这里,我们采用的是英文的标注信息,每个文件标注完成后会生成新的文件,最终代码如下:

python 复制代码
import pynlpir
import os

# 初始化分词库
pynlpir.open ()

# 进行分词操作
txts = [file for file in os.listdir(".") if file.endswith(".txt")]

for txt in txts:
    with open(txt,"r",encoding="utf-8") as f:
        lines = [line.strip() for line in f.readlines()]
        for line in lines:
            segments = pynlpir.segment (line, pos_tagging=True,pos_english=True)
            with open("segged_"+os.path.basename(txt),"a+",encoding="utf-8") as fi:
                for segment in segments:
                    try:
                        fi.write(str(segment[0])+"_"+str(segment[1])+"|")
                    except Exception as exc:
                        print(exc,segment)
                fi.write("\n")

# 关闭分词库
pynlpir.close ()

4. 分词效果展示

经过分词和标注后的文件截图展示如下,可以看到很好地保留了段落的信息,这为后面进行词性统计也做好了准备。后期,可以根据nlpir的标注集,对于所有文本中的词性进行统计分析。

三、学后反思

  1. pynlpir这个包分词速度还是很快的,但是使用起来有一定的难度。更新license时可以去github上下载,或者本地使用代理下载。
  2. 导入自定义字典时,注意字典编码要转化为ANSI编码,否则可能会报错。
  3. 批量分词时,注意文件的路径最好不要有中文,否则也可能无法顺利分词。
  4. 如果是在Linux上更新Lincense的话,为了保险起见,可以先去github上下载,再进行上传,以确保万无一失。
相关推荐
XiaoLiuLB3 小时前
ChatGPT Canvas:交互式对话编辑器
人工智能·自然语言处理·chatgpt·编辑器·aigc
网安-搬运工5 小时前
RAG再总结之如何使大模型更好使用外部数据:四个不同层级及查询-文档对齐策略
人工智能·自然语言处理·大模型·llm·大语言模型·ai大模型·rag
神一样的老师17 小时前
讯飞星火编排创建智能体学习(四):网页读取
人工智能·学习·语言模型·自然语言处理
Hiweir ·19 小时前
NLP任务之文本分类(情感分析)
人工智能·自然语言处理·分类·huggingface
sp_fyf_202420 小时前
[大语言模型-论文精读] 更大且更可指导的语言模型变得不那么可靠
人工智能·深度学习·神经网络·搜索引擎·语言模型·自然语言处理
山川而川-R1 天前
Windows安装ollama和AnythingLLM
人工智能·python·语言模型·自然语言处理
我爱学Python!1 天前
基于 LangChain 的自动化测试用例的生成与执行
人工智能·自然语言处理·langchain·自动化·llm·测试用例·大语言模型
sp_fyf_20241 天前
[大语言模型-论文精读] 利用多样性进行大型语言模型预训练中重要数据的选择
人工智能·深度学习·神经网络·语言模型·自然语言处理
sp_fyf_20241 天前
[大语言模型-算法优化] 微调技术-LoRA算法原理及优化应用详解
人工智能·神经网络·算法·语言模型·自然语言处理
萱仔学习自我记录1 天前
常用大语言模型简单介绍
人工智能·python·自然语言处理·nlp