自然语言处理系列四十》条件随机场CRF》CRF开源工具实战

注:此文章内容均节选自充电了么创始人,CEO兼CTO陈敬雷老师的新书 《自然语言处理原理与实战》(人工智能科学与技术丛书)【陈敬雷编著】【清华大学出版社】

文章目录

自然语言处理系列四十

条件随机场(CRF)开源工具实战

目前条件随机场最流行的开源工具是CRF++。CRF++工具包最早是针对序列数据分析提出的,是一个可用于分词/连续数据标注的简单、可定制并且开源的条件随机场(CRFs)工具。CRF++是为了通用目的设计定制 ,能被用于自然语言信息处理 (NLP)的各个方面 ,诸如命名实体识别、信息提取和语块分析。下面介绍下其安装和使用。

  1. CRF++的安装
    CRF++工具包的下载地址:http://code.google.com/p/crfpp/downloads/list(谷歌的下载地址需要翻墙),工具包包括Linux环境下的源代码和Windows下的可执行程序,用C++编写。
    Linux下的安装:
    编译器要求:C++编译器(gcc 3.0或更高)
    下载解压后进入到第一层目录下方使用如下命令。
    命令:
    % ./configure
    % make
    % su
    #make install
    注:只有拥有root帐号的用户才能成功安装。(su 命令就是切换到root权限下):
  2. CRF++的使用
    1)CRF++语料格式
    训练和测试文件必须包含多个tokens,每个token包含多个列。token的定义可根据具体的任务,如词、词性等。每个token必须写在一行,且各列之间用空格或制表格间隔。一个token的序列可构成一个sentence,sentence之间用一个空行间隔。
    最后一列是CRF用于训练的正确的标注形式。
    例如:
    He PRP B-NP
    reckons VBZ B-VP
    the DT B-NP
    current JJ I-NP
    account NN I-NP
    deficit NN I-NP
    will MD B-VP
    narrow VB I-VP
    to TO B-PP
    only RB B-NP
    I-NP
    1.8 CD I-NP
    billion CD I-NP
    in IN B-PP
    September NNP B-NP
    He PRP B-NP
    reckons VBZ B-VP
    ...
    上面的例子每个token包含3列,分别为词本身、词性和Chunk标记。
    注意:如果每一个token的列数不一致,系统将不能正确运行。
    2)CRF++特征模板
    使用该CRF++工具的用户必须自己确定特征模板。模板文件中的每一行代表一个template。每一个template中,专门的宏%x[row,col]用于确定输入数据中的一个token。row用于确定与当前的token的相对行数。col用于确定绝对列数。
    如已知下面的输入数据:
    Input: Data
    He PRP B-NP
    reckons VBZ B-VP
    the DT B-NP << 当前的token
    current JJ I-NP
    account NN I-NP
    特征模板形式为:
    templateexpanded feature
    %x[0,0]the
    %x[0,1]
    %x[-1,0]rokens
    %x[-2,1]PRP
    %x[0,0]/%x[0,1]the/DT
    ABC%x[0,1]123ABCthe123
    模板类型
    有两种模板类型,它们可由template的第一个字符确定。
    (1)Unigram template
    第一种是Unigram template:第一个字符是U
    这是用于描述unigram feature的模板。当你给出一个模板"U01:%x[0,1]",CRF会自动的生成一个特征函数集合(func1 ... funcN),如:
    func1 = if (output = B-NP and feature="U01:DT") return 1 else return
    0
    func2 = if (output = I-NP and feature="U01:DT") return 1 else return
    0
    func3 = if (output = O and feature="U01:DT") return 1
    else return 0
    ...
    funcXX = if (output = B-NP and feature="U01:NN") return 1
    else return 0
    funcXY = if (output = O and feature="U01:NN") return 1
    else return 0
    ...
    一个模型生成的特征函数的个数总数为L*N,其中L是输出的类别数,N是根据给定的template扩展出的unique string的数目。
    (2) Bigram template
    第二种类型Bigram template:第一个字符是B
    这个模板用于描述bigram features。使用这个模板,系统将自动产生当前输出token与前一个输出token(bigram)的组合。产生的可区分的特征的总数是LLN,其中L是输出类别数,N是这个模板产生的unique features数。当类别数很大的时候,这种类型会产生许多可区分的特征,这将会导致训练和测试的效率都很低下。
    使用标识符区分相对位置
    如果用户需要区分token的相对位置时,可以使用标识符。
    比如在下面的例子中,宏"%x[-2,1]"和"%x[1,1]"都代表"DT",但是它们又是不同的"DT"。
    The DT B-NP
    pen NN I-NP
    is VB B-VP << CURRENT TOKEN
    a DT B-NP
    为了区分它们,可以在模型中加入一个唯一的标识符(U01: 或 U02:),即:
    U01:%x[-2,1]
    U02:%x[1,1]
    在这样的条件下,两种模型将被认为是不同的,因为他们将被扩展为"U01:DT"和"U02:DT"。只要你喜欢,你可以使用任何标识符,但是使用数字序号区分更很有用,因为它们只需简单的与特征数相对应。
    (3)模板例子
    Unigram
    U00:%x[-2,0]
    U01:%x[-1,0]
    U02:%x[0,0]
    U03:%x[1,0]
    U04:%x[2,0]
    U05:%x[-1,0]/%x[0,0]
    U06:%x[0,0]/%x[1,0]
    U10:%x[-2,1]
    U11:%x[-1,1]
    U12:%x[0,1]q
    U13:%x[1,1]
    U14:%x[2,1]
    U15:%x[-2,1]/%x[-1,1]
    U16:%x[-1,1]/%x[0,1]
    U17:%x[0,1]/%x[1,1]
    U18:%x[1,1]/%x[2,1]
    U20:%x[-2,1]/%x[-1,1]/%x[0,1]
    U21:%x[-1,1]/%x[0,1]/%x[1,1]
    U22:%x[0,1]/%x[1,1]/%x[2,1]
    Bigram
    B
    3)CRF++包介绍
    CRF++解压后的包有以下文件夹和文件:
    doc文件夹:官方主页的内容
    example文件夹:有四个数据包,每个数据包有四个文件:
    训练数据(test.data)、测试数据(train.data)、模板文件(template)、执行脚本文件exec.sh
    example文件夹:有四个任务的训练数据、测试数据和模板文件。
    sdk文件夹:CRF++的头文件和静态链接库。
    crf_learn.exe:CRF++的训练程序
    crf_test.exe:CRF++的预测程序
    libcrfpp.dll:训练程序和预测程序需要使用的静态链接库。
    实际上,需要使用的就是crf_learn.exe,crf_test.exe和libcrfpp.dll,这三个文件。
    4)CRF++命令介绍
    (1) CRF++命令
    1.将crf_learn.exe;crf_test.exe;libcrfpp.dll三个文件复制到到,含有exec.sh;template;test.data;train.data的文件夹(chunking)里。
    2.cmd cd进入该文件夹
    crf_learn template train.data model 训练数据
    crf_test -m model test.data >output.txt 测试数据
    3.perl conlleval.pl < output.txt 评估效果(此处会报错误)需要下载perl(需要复制conlleval.pl文件到文件夹里)
    或者使用评估程序crf_evalutuion.exe文件,同样把crf_evalutuion.exe文件复制到文件夹里
    使用命令:
    输入"crf_evalution"按回车,然后输入参数,参数有两个:
    第一个是需要评估文件的路径+文件名(如果在同一目录下只需输入文件名,如:output.txt或者c:\desktop\output.txt),
    第二个参数为评估文件行数,对于给定测试语料(test.file.txt)来说输入小于等于 49994 就ok
    4.会产生一个新的文件:model
    这个训练过程的时间、迭代次数等信息就会输出到控制台上,如果想要保存这些信息,我们可以将这些标准输出 流到文件,命令格式为:
    crf_learn template_file train_file model_file >> train_info_file
    eg:crf_learn template train.data model >> model_out.txt
    (2)CRF++操作举例
    CRF++操作截图如图10.4所示。

图10.4 CRF++操作截图(图片来源于CSDN)

(3)CRF++命令参数

训练命令可选参数:

训练:.../crf_learn --[可选参数] template train.data model

可选参数

-f, --freq=INT 使用属性的出现次数不少于INT(默认为1)

-m, --maxiter=INT 设置INT为LBFGS的最大跌代次数 (默认10k)

-c, --cost=FLOAT 设置FLOAT为代价参数,过大会过度拟合 (默认1.0)

-e, --eta=FLOAT 设置终止标准FLOAT(默认0.0001)

-C, --convert 将文本模式转为二进制模式

-t, --textmodel 为调试建立文本模型文件

-a,--algorithm=(CRF|MIRA) 选择训练算法, 默认为CRF-L2

-p, --thread=INT 线程数(默认1),利用多个CPU减少训练时间

-H, --shrinking-size=INT 设置INT为最适宜的跌代变量次数 (默认20)

-v, --version 显示版本号并退出

-h, --help 显示帮助并退出

输出结果如图10.5所示。

图10.5 CRF++训练(图片来源于CSDN)

iter: 跌代次数

terr: tag错误率

serr: sentence错误率

obj: 当前对象值,该值收敛于一个固定的值则停止跌代

diff: 于上次对象值的相对差异

测试命令可选参数:

测试:.../crf_test -[可选参数] -m model test.data

-v选项:设置verbose level(默认0)。增加层次,可从CRF++获得额外的信息。

层次1:可以对每个tag使用边缘概率,对总输出使用条件概率。

.../crf_test -v1 -m model test.data| head

0.478113

层次2:也可以对所有的其他候选求边缘概率。

例:.../crf_test -v2 -m model test.data

0.478113

-n选项:使用这个选项将获得N-best结果,它根据CRF计算出的条件概率排序得到。选择了N-best结果,CRF++会自动添加一行,形为"# N prob"。N从0开始累加至N,prob表示output的条件概率, 依次降低。

如果CRF++不能找到足够的N条路径是,它将放弃列举N-best结果。

新词发现与短语提取

新词发现是一个非常重要的NLP课题。在处理文本对象时,非常关键的问题在于"切词"这个环节,几乎所有的后续结果都依赖第一步的切词。因此切词的准确性在很大程度上影响着后续的处理,切词结果的不同,也就影响了特征的提取,跟数据挖掘一样,特征提取的好坏特别重要,不论用什么算法,特征好数据好结果才会好。

短语提取是指从文章中提取典型的、有代表性的短语,期望能够表达文章的关键内容。关键短语抽取对于文章理解、搜索、分类、聚类都很重要。而高质量的关键短语抽取算法,还能有效助力构建知识图谱。

下一篇文章对新词发现和短语提取的算法原理进行介绍,并用开源工具代码演示其功能。敬请关注!

总结

此文章有对应的配套新书教材和视频:

【配套新书教材】
《自然语言处理原理与实战》(人工智能科学与技术丛书)【陈敬雷编著】【清华大学出版社】

新书特色:本书从自然语言处理基础开始,逐步深入各种NLP热点前沿技术,使用了Java和Python两门语言精心编排了大量代码实例,契合公司实际工作场景技能,侧重实战。

全书共分为19章,详细讲解中文分词、词性标注、命名实体识别、依存句法分析、语义角色标注、文本相似度算法、语义相似度计算、词频-逆文档频率(TF-IDF)、条件随机场、新词发现与短语提取、搜索引擎Solr Cloud和Elasticsearch、Word2vec词向量模型、文本分类、文本聚类、关键词提取和文本摘要、自然语言模型(Language Model)、分布式深度学习实战等内容,同时配套完整实战项目,例如对话机器人实战、搜索引擎项目实战、推荐算法系统实战。

本书理论联系实践,深入浅出,知识点全面,通过阅读本书,读者不仅可以理解自然语言处理的知识,还能通过实战项目案例更好地将理论融入实际工作中。

【配套视频】
自然语言处理NLP原理与实战 视频教程【陈敬雷】

视频特色:《自然语言处理NLP原理与实战》包含了互联网公司前沿的热门算法的核心原理,以及源码级别的应用操作实战,直接讲解自然语言处理的核心精髓部分,自然语言处理从业者或者转行自然语言处理者必听视频!

上一篇:自然语言处理系列三十九》条件随机场CRF算法原理
下一篇:自然语言处理系列四十一》新词发现与短语提取》新词发现算法原理

相关推荐
迅易科技1 小时前
借助腾讯云质检平台的新范式,做工业制造企业质检的“AI慧眼”
人工智能·视觉检测·制造
古希腊掌管学习的神2 小时前
[机器学习]XGBoost(3)——确定树的结构
人工智能·机器学习
ZHOU_WUYI2 小时前
4.metagpt中的软件公司智能体 (ProjectManager 角色)
人工智能·metagpt
靴子学长3 小时前
基于字节大模型的论文翻译(含免费源码)
人工智能·深度学习·nlp
梧桐树04294 小时前
python常用内建模块:collections
python
AI_NEW_COME4 小时前
知识库管理系统可扩展性深度测评
人工智能
Dream_Snowar4 小时前
速通Python 第三节
开发语言·python
海棠AI实验室4 小时前
AI的进阶之路:从机器学习到深度学习的演变(一)
人工智能·深度学习·机器学习
hunteritself4 小时前
AI Weekly『12月16-22日』:OpenAI公布o3,谷歌发布首个推理模型,GitHub Copilot免费版上线!
人工智能·gpt·chatgpt·github·openai·copilot
IT古董5 小时前
【机器学习】机器学习的基本分类-强化学习-策略梯度(Policy Gradient,PG)
人工智能·机器学习·分类