自然语言处理学习笔记（四）————词典分词

from pyhanlp import *

def load_dictionary():
    """
    加载HanLP中的mini词库
    :return: 一个set形式的词库
    """
    IOUtil = JClass('com.hankcs.hanlp.corpus.io.IOUtil')  # ①
    path = HanLP.Config.CoreDictionaryPath.replace('.txt', '.mini.txt')  # ②
    dic = IOUtil.loadDictionary([path])  # ③
    return set(dic.keySet())


if __name__ == '__main__':
    dic = load_dictionary()
    print(len(dic))
    print(list(dic)[0])

JClass 函数是连通Java和Python 的桥梁，用来根据Java路径名得到一个Python类。

①处利用JClass取得了HanLP中的IOUti1工具类，②处则取得了HanLP的配置项Config中的词典路径。我们写在配置文件中的条目最终会被读入这个结构中，比如配置文件写作CoreDictionaryPath=data/dictionary/CoreNatureDictionary.txt，该配置将被读人HanLP.Config.CoreDictionaryPath。这里我们想要加载mini 词典，因为其体积更小，加载起来更快。于是②处将这个路径替换为mini词典的路径。在③处我们像对待普通Python 工具类一样调用了IOUti1的静态方法 loadDictionary。该方法支持将多个文件读入同一个词典中，因此需要传入一个1ist。它返回一个Java Map对象，前面提到过，我们不关心Map中的值，于是我们只取它的键keySet，并将其转换为一个Python原生的set 对象。这样接下来的代码就不必考虑与Java的交互，Python用户从此回到了自己熟悉的环境中。

（5）hanlp词典路径

复制代码

路径为：HanLP/data/dictionaray/CoreNatureDictionaray.mini.txt