使用jieba库进行中文分词和去除停用词

jieba.lcut

jieba.lcut()和jieba.lcut_for_search()是jieba库中的两个分词函数,它们的功能和参数略有不同。

jieba.lcut()方法接受三个参数:需要分词的字符串,是否使用全模式(默认为False)以及是否使用HMM模型(默认为True)。它返回一个列表,其中包含分词后的词语。该方法适合用于普通的文本分词任务。

而jieba.lcut_for_search()方法接受两个参数:需要分词的字符串和是否使用HMM模型。该方法适合用于搜索引擎的分词,因为它在精确模式的基础上,对长词进行了再次切分,以提高召回率。

python 复制代码
import jieba
text = '中文分词是将中文文本切分成一系列有意义的词语的过程。'

#定义词典列表
b=['中文分词','中午文本','有意义']
jieba.load_userdict(b)  #应用自定义词典列表


print(jieba.lcut(text,cut_all=False)) # 默认精确模式,即cut_all=False
print(jieba.lcut(text,cut_all=True)) # 改为全模式,即cut_all=True
print(jieba.lcut_for_search(text)) # 搜索引擎模式
python 复制代码
import jieba

text2 = '我们中出了一个叛徒'
print(jieba.lcut(text2))

# 删除一个单词
jieba.del_word('中出')
print(jieba.lcut(text2))

#增加一个单词
jieba.add_word('出了')
print(jieba.lcut(text2))


# 如果我们不想删除"中出"这个词,但是又不想让它合在一起,可以增大它的词频
jieba.add_word('中出')  # 为了演示效果,我们需要回到最初始的样子
jieba.del_word('出了')
print(jieba.lcut(text2))
# 调节词的词频,使其能(或不能)被分词
# tune=True:执行词频调整,默认False不执行
jieba.suggest_freq(('中','出'),tune=True)
print(jieba.lcut(text2))

去除停用词语

最全中文停用词表

python 复制代码
import re
import jieba
text3 = '昨天我吃了一大碗米饭,真的是太好吃了!###@'

# 去除一些无用的字符只提取出中文出来
new_text = "".join(re.findall('[\u4e00-\u9fa5]+', text3, re.S))
print(new_text)

print(jieba.lcut(new_text))

综合案例

python 复制代码
import re
import jieba

def chinese_word_cut(mytext):
    # jieba.load_userdict('自定义词典.txt')  # 这里你可以添加jieba库识别不了的网络新词,避免将一些新词拆开
    jieba.initialize()  # 初始化jieba
    # 文本预处理 :去除一些无用的字符只提取出中文出来
    new_data = re.findall('[\u4e00-\u9fa5]+', mytext, re.S)
    new_data = " ".join(new_data)
    # 文本分词
    seg_list_exact = jieba.lcut(new_data)
    result_list = []
    # 读取停用词库
    with open('cn_stopwords.txt', encoding='utf-8') as f:  # 可根据需要打开停用词库,然后加上不想显示的词语
        con = f.readlines()
        stop_words = set()
        for i in con:
            i = i.replace("\n", "")  # 去掉读取每一行数据的\n
            stop_words.add(i)
    # 去除停用词并且去除单字
    for word in seg_list_exact:
        if word not in stop_words and len(word) > 1:
            result_list.append(word)

    return result_list

if __name__=='__main__':
    with open('new.txt','r',encoding='utf-8') as f:
        text_file=f.read()

    # 分词得到词典
    result=chinese_word_cut(text_file)
    result=set(result)
    print(result)
    # print(text_file)

参考:

文本分析-使用jieba库进行中文分词和去除停用词(附案例实战)_jieba.lcut(text)-CSDN博客

相关推荐
甄心爱学习39 分钟前
【自然语言处理】三种典型的词向量学习方法
人工智能·自然语言处理·学习方法
阿杰学AI2 小时前
AI核心知识118—大语言模型之 Software 2.0 (简洁且通俗易懂版)
人工智能·ai·语言模型·自然语言处理·aigc·编程·software 2.0
xcLeigh2 小时前
AI标书底层技术全解析:NLP+大模型落地,喜鹊标书AI如何重构投标效率
人工智能·ai·自然语言处理·重构·大模型·nlp·标书
gorgeous(๑>؂<๑)15 小时前
【CVPR26-韩国科学技术院】令牌扭曲技术助力多模态大语言模型从邻近视角观察场景
人工智能·语言模型·自然语言处理
龙文浩_18 小时前
AI NLP核心技术指南
人工智能·pytorch·深度学习·神经网络·自然语言处理
A林玖20 小时前
【NLP】形式语言与自动机
人工智能·自然语言处理
飞Link1 天前
【AI大模型实战】万字长文肝透大语言模型(LLM):从底层原理解析到企业级Python项目落地
开发语言·人工智能·python·语言模型·自然语言处理
nap-joker1 天前
基于大语言模型的大规模人群中的生物年龄预测
人工智能·语言模型·自然语言处理·生物年龄·器官特异的生物年龄
Omics Pro1 天前
上海AI Lab+复旦大学:双轨协同实现自动化虚拟细胞建模
运维·人工智能·语言模型·自然语言处理·数据挖掘·数据分析·自动化
财经资讯数据_灵砚智能1 天前
基于全球经济类多源新闻的NLP情感分析与数据可视化(日间)2026年4月12日
大数据·人工智能·信息可视化·自然语言处理·ai编程