自然语言处理笔记

自然语言处理笔记

自然语言处理主要环节

分词




python 复制代码
"""
结巴分词 使用 pip install jieba
精确模式
全词模式
搜索引擎模式
# 本质: 对分词的颗粒度进行控制
"""
import jieba

# def cut(self, sentence, cut_all = False, HMM = True,use_paddle = False):
def dm01_jiebase_base():

    content = "传智教育是一家上市公司,旗下有黑马程序员品牌。我是在黑马这里学习人工智能"
    # 精确模式: 按照句子的语义对文本,尽量精准的进行分词
    myobj1 = jieba.cut(sentence=content, cut_all= False)
    print('myobj1-->', myobj1)

    mydata1 = jieba.lcut(sentence=content, cut_all=False)
    print('mydata1-->', mydata1)

    # 全词模式: 把所有的词都分出来
    myobj2 = jieba.cut(sentence=content, cut_all=True)
    print('myobj2-->', myobj2)

    mydata2 = jieba.lcut(sentence=content, cut_all=True)
    print('mydata2-->', mydata2)

    # 搜索引擎模式: 是在精确模式的基础之上, 对长词再做切分!!
    # def lcut_for_search(self, *args, **kwargs):
    myobj3 = jieba.cut_for_search(sentence=content)
    print('myobj3-->', myobj3)

    mydata3 = jieba.lcut_for_search(sentence=content)
    print('mydata3-->', mydata3)


    """
    mydata1--> ['传智', '教育', '是', '一家', '上市公司', ',', '旗下', '有', '黑马', '程序员', '品牌', '。', '我', '是', '在', '黑马', '这里', '学习', '人工智能']
    myobj2--> <generator object Tokenizer.cut at 0x7f2b6f61c970>
    mydata2--> ['传', '智', '教育', '是', '一家', '上市', '上市公司', '公司', ',', '旗下', '下有', '黑马', '程序', '程序员', '品牌', '。', '我', '是', '在', '黑马', '这里', '学习', '人工', '人工智能', '智能']
    myobj3--> <generator object Tokenizer.cut_for_search at 0x7f2b6da7cac0>
    mydata3--> ['传智', '教育', '是', '一家', '上市', '公司', '上市公司', ',', '旗下', '有', '黑马', '程序', '程序员', '品牌', '。', '我', '是', '在', '黑马', '这里', '学习', '人工', '智能', '人工智能']
    
    """


'''' 

1 用户字典格式
名字 + 词频 + 词性 ;注意 词频 + 词性是可以省略
上市
黑马程序员 5 n
传智教育 6 n
人工智能 7 nz
学习 3

2 流程

3 用户字典的作用: 的确可以增加jieba分词的准确性

'''

def dm02_jiebase_用户字典():


    """ 字典内容:
    上市
    黑马程序员 5 n
    传智教育 6 n
    人工智能 7 nz
    学习 3
    """

    # 1 不使用用户字典
    content = "传智教育是一家上市公司,旗下有黑马程序员品牌。我是在黑马这里学习人工智能"
    # 精确模式: 按照句子的语义对文本,尽量精准的进行分词
    mydata1 = jieba.lcut(sentence=content, cut_all=False)
    print('mydata1-->', mydata1)

    # 2 使用用户字典
    jieba.load_userdict('./userdict.txt')
    mydata2 = jieba.lcut(sentence=content, cut_all=False)
    print('mydata2-->', mydata2)
    pass

    """输出如下
    mydata1--> ['传智', '教育', '是', '一家', '上市公司', ',', '旗下', '有', '黑马', '程序员', '品牌', '。', '我', '是', '在', '黑马', '这里', '学习', '人工智能']
    mydata2--> ['传智教育', '是', '一家', '上市公司', ',', '旗下', '有', '黑马程序员', '品牌', '。', '我', '是', '在', '黑马', '这里', '学习', '人工智能']
    
    """

# 支持繁体字
def dm03_jieba_base():
    content = "煩惱即是菩提,我暫且不提"
    mydata1 = jieba.lcut(content)
    print('mydata1--->', mydata1)



# 中文词性标注
import jieba.posseg as pseg
def dm04_jieba_词性标注():
    mydata1 = pseg.lcut("我爱北京天安门")
    print('mydata1-->', mydata1)

    # 输出如下:  mydata1--> [pair('我', 'r'), pair('爱', 'v'), pair('北京', 'ns'), pair('天安门', 'ns')]
    pass

if __name__ == '__main__':
    # dm01_jiebase_base()
    # dm02_jiebase_用户字典()
    # dm03_jieba_base()
    dm04_jieba_词性标注()
相关推荐
chushiyunen1 小时前
langchain4j笔记、tools
笔记·python·flask
财经资讯数据_灵砚智能3 小时前
基于全球经济类多源新闻的NLP情感分析与数据可视化(夜间-次晨)2026年6月14日
大数据·人工智能·python·ai·信息可视化·自然语言处理·灵砚智能
影视飓风TIM3 小时前
数据结构 | 链表超全笔记(单链表+双链表+高频算法题)
数据结构·笔记·链表
二哈赛车手3 小时前
新人笔记---最终版智能体图片分析完整方案,包括一些总结于经验,以及各种优化点讲解
java·笔记·spring·ai·springboot
_李小白4 小时前
【智能驾驶:视觉感知后处理 阅读笔记】Day4: 相机成像模型与畸变
笔记·数码相机
十月的皮皮4 小时前
C语言学习笔记20260615-有序升序序列合并
c语言·笔记·学习
叫我:松哥5 小时前
基于机器学习的中文文本抑郁症风险检测系统,包括NLP与传统机器学习的抑郁症识别,准确率92%
人工智能·深度学习·机器学习·自然语言处理·flask·nlp·bootstrap
辣香牛肉面7 小时前
CintaNotes个人笔记管理软件v3.14(v3.13.0 绿色汉化版)
笔记
yoothey9 小时前
异常学习笔记:为什么自定义异常后还要 throw?
笔记·学习
sulikey9 小时前
数据库系统概论4 - 更新与视图 期末速成课笔记
数据库·笔记·考试·期末速成·数据库系统概论