开源中文分词Ansj的简单使用

ANSJ是由孙健(ansjsun)开源的一个中文分词器,为ICTLAS的Java版本,也采用了Bigram + HMM分词模型:在Bigram分词的基础上,识别未登录词,以提高分词准确度。

虽然基本分词原理与ICTLAS的一样,但是Ansj做了一些工程上的优化,比如:用DAT高效地实现检索词典、邻接表实现分词DAG、支持自定义词典与自定义消歧义规则等。

1.项目地址

项目的github地址:https://github.com/NLPchina/ansj_seg

项目的文档地址:http://nlpchina.github.io/ansj_seg/

2.导入

2.1依赖

Ansj最新依赖包是5.1.6版本的,2018年更新的,最近已经不更新了:

<dependency>

<groupId>org.ansj</groupId>

<artifactId>ansj_seg</artifactId>

<version>5.1.6</version>

</dependency>

2.2 配置文件

在ansj中配置文件名为library.properties,这是一个不可更改的约定。下面让我们看看都有哪些选项在这个配置文件中:

字段名 默认值 说明
isNameRecognition true 是否开启人名识别
isNumRecognition true 是否开启数字识别
isQuantifierRecognition true 是否数字和量词合并
isRealName false 是否取得真实的词,默认情况会取得标注化后的
isSkipUserDefine false 是否用户辞典不加载相同的词
dic "library/default.dic" 自定义词典路径
dic_[key] "你的词典路径" 针对不同语料调用不同的自定义词典
ambiguity "library/ambiguity.dic" 歧义词典路径
ambiguity_[key] "library/ambiguity.dic" 歧义词典路径
crf null crf词典路径,不设置为默认
crf_[key] "你的模型路径" 针对不同语料调用不同的分词模型
synonyms "默认的同义词典" 针对不同语料调用不同的分词模型
synonyms_[key] "你的同义词典路径" 针对不同语料调用不同的分词模型

默认的配置文件格式:

复制代码
#path of userLibrary this is default library
dic=library/default.dic

#redress dic file path
ambiguityLibrary=library/ambiguity.dic

#set real name
isRealName=true

#isNameRecognition default true
isNameRecognition=true

#isNumRecognition default true
isNumRecognition=true

#digital quantifier merge default true
isQuantifierRecognition=true

3.分词实现

3.1 ToAnalysis 精准分词

精准分词是Ansj分词的推荐款

它在易用性、稳定性、准确性以及分词效率上,都取得了一个不错的平衡。如果你初次尝试Ansj想开箱即用,那么就用这个分词方式是不会错的。

3.2 DicAnalysis 用户自定义词典优先策略的分词

用户自定义词典优先策略的分词。如果你的用户自定义词典足够好,或者你的需求对用户自定义词典的要求比较高,那么强烈建议你使用DicAnalysis的分词方式。

可以说在很多方面Dic优于ToAnalysis的结果。

3.3 NlpAnalysis 带有新词发现功能的分词

nlp分词是总能给你惊喜的一种分词方式。

它可以识别出未登录词,但是它也有它的缺点:速度比较慢、稳定性差。ps:我这里说的慢仅仅是和自己的其他方式比较,应该是40w字每秒的速度吧。

个人觉得nlp的适用方式:语法实体名抽取、未登录词整理、对文本进行发现分析等工作

3.4 IndexAnalysis 面向索引的分词

面向索引的分词。顾名思义就是适合在lucene等文本检索中用到的分词。主要考虑以下两点

  • 召回率
    • 召回率是对分词结果尽可能的涵盖。比如对"上海虹桥机场南路" 召回结果是[上海/ns, 上海虹桥机场/nt, 虹桥/ns, 虹桥机场/nz, 机场/n, 南路/nr]
  • 准确率
    • 其实这和召回本身是具有一定矛盾性的Ansj的强大之处是很巧妙的避开了这两个的冲突 。比如我们常见的歧义句"旅游和服务"->对于一般保证召回 。大家会给出的结果是"旅游 和服 服务" 对于ansj不存在跨term的分词。意思就是。召回的词只是针对精准分词之后的结果的一个细分。比较好的解决了这个问题

3.5 BaseAnalysis 最小颗粒度的分词

基本就是保证了最基本的分词。词语颗粒度最非常小 的,所涉及到的词大约是10万左右。

基本分词速度非常快。在macAir上,能到每秒300w字每秒。同时准确率也很高,但是对于新词他的功能十分有限。

3.6 功能统计

名称 用户自定义词典 数字识别 人名识别 机构名识别 新词发现
BaseAnalysis X X X X X
ToAnalysis X X
DicAnalysis X X
IndexAnalysis X X
NlpAnalysis

4、使用实例

4.1 分词demo

java 复制代码
package com.*;

import org.ansj.splitWord.analysis.*;
import org.junit.Test;

import java.util.*;

/**
 * @author 
 * @date 2023-07-26 15:29
 */
public class SegTest {
    @Test
    public void test(){
        String str = "ANSJ是由孙健(ansjsun)开源的一个中文分词器,为ICTLAS的Java版本,也采用了Bigram + HMM分词模型:在Bigram分词的基础上,识别未登录词,以提高分词准确度。" ;
        System.out.println(BaseAnalysis.parse(str));
        System.out.println(ToAnalysis.parse(str));
        System.out.println(DicAnalysis.parse(str));
        System.out.println(IndexAnalysis.parse(str));
        System.out.println(NlpAnalysis.parse(str));
    }
}

分词结果:

BaseAnalysis

ANSJ/en,是/v,由/p,孙健/nr,(/w,ansjsun/en,)/w,开源/v,的/u,一个/m,中文/nz,分词/v,器/ng,,/w,为/p,ICTLAS/en,的/u,Java/en,版本/n,,/w,也/d,采用/v,了/u,Bigram/en, ,+/w, ,HMM/en,分词/v,模型/n,:/w,在/p,Bigram/en,分词/v,的/u,基础/n,上/f,,/w,识别/v,未/d,登录/vn,词/n,,/w,以/p,提高/v,分词/v,准确度/n,。/w

复制代码
ToAnalysis:

ANSJ/en,是/v,由/p,孙健/nr,(/w,ansjsun/en,)/w,开源/v,的/u,一个/m,中文/nz,分词器/n,,/w,为/p,ICTLAS/en,的/u,Java/en,版本/n,,/w,也/d,采用/v,了/u,Bigram/en, ,+/w, ,HMM/en,分词/v,模型/n,:/w,在/p,Bigram/en,分词/v,的/u,基础/n,上/f,,/w,识别/v,未/d,登录/vn,词/n,,/w,以/p,提高/v,分词/v,准确度/n,。/w

复制代码
DicAnalysis:

ANSJ/en,是/vshi,由/p,孙健/nr,(/w,ansjsun/en,)/w,开源/v,的/ude1,一个/mq,中文/nz,分词器/n,,/w,为/p,ICTLAS/en,的/ude1,Java/en,版本/n,,/w,也/d,采用/v,了/ule,Bigram/en, ,+/w, ,HMM/en,分词/v,模型/n,:/w,在/p,Bigram/en,分词/v,的/ude1,基础/n,上/f,,/w,识别/vn,未/d,登录/v,词/n,,/w,以/p,提高/v,分词/v,准确度/n,。/w

复制代码
IndexAnalysis:

ANSJ/en,是/v,由/p,孙健/nr,孙/ng,健/ag,(/w,ansjsun/en,)/w,开源/v,开/v,源/ng,的/u,一个/m,一/m,个中/r,个/q,中文/nz,中/f,文/ng,分词器/n,分词/v,分/qt,词/n,器/ng,,/w,为/p,ICTLAS/en,的/u,Java/en,版本/n,版/n,本/rz,,/w,也/d,采用/v,采/v,用/p,了/u,Bigram/en, ,+/w, ,HMM/en,分词/v,分/qt,词/n,模型/n,模/ng,型/k,:/w,在/p,Bigram/en,分词/v,分/qt,词/n,的/u,基础/n,基/ng,础/ng,上/f,,/w,识别/v,识/v,别/d,未/d,登录/vn,登/v,录/ng,词/n,,/w,以/p,提高/v,提/v,高分/n,高/a,分词/v,分/qt,词/n,准确度/n,准确/a,准/a,确/d,度/qv,。/w

NlpAnalysis :

复制代码
ANSJ/en,是/v,由/p,孙健/nr,(/w,ansjsun/en,)/w,开源/v,的/u,一个/m,中文/nz,分词器/n,,/w,为/p,ICTLAS/en,的/u,Java/en,版本/n,,/w,也/d,采用/v,了/u,Bigram/en, ,+/w, ,HMM/en,分词/v,模型/n,:/w,在/p,Bigram/en,分词/v,的/u,基础/n,上/f,,/w,识别/v,未/d,登录/vn,词/n,,/w,以/p,提高/v,分词/v,准确度/n,。/w 

4.2 使用demo

以ToAnalysis为例,其它方法大同小异:

java 复制代码
	public static void main(String[] args) {
        String str = "欢迎使用ansj_seg,(ansj中文分词)在这里如果你遇到什么问题都可以联系我!" ;
        Result result = ToAnalysis.parse(str); //分词结果的一个封装,主要是一个List<Term>的terms
        System.out.println(result.getTerms());

        List<Term> terms = result.getTerms(); //拿到terms
        System.out.println(terms.size());

        for(int i=0; i<terms.size(); i++) {
            String word = terms.get(i).getName(); //拿到词
            String natureStr = terms.get(i).getNatureStr(); //拿到词性
            System.out.println(word + ":" + natureStr);
        }
    }

基本使用方法分为几下几步:

1、使用ToAnalysis.parse(str)将字符串进行分词,会返回一个Result,分词的结果就在它里面。

2、然后继续result.getTerms()获得分词结果的内容,因为是返回的多个分词,所以最终获得的是一个List。

3、然后遍历它,term.getName()获得的是词,term.getNatureStr()拿到的是这个词的词性。

4.3 个性化定制分词词典

4.3.1 自定义常用词典

  • 创建一个名为userLibrary.dic的文件,内容如下:

5G n 1000

哈利·波特 n 1000

第一个是词语,第二个是词性,第三个是权重。词性这里大家不用关注,编号以此类推即可,不要重复,各个以缩进(\t)分隔。

  • 加载自定义词典
复制代码
// 配置自定义词典的位置。注意是绝对路径
MyStaticValue.ENV.put(DicLibrary.DEFAULT,System.getProperty("user.dir")+"/library/dictionary/userLibrary.dic");

4.3.2 自定义停用词典

  • 创建一个名为stopLibrary.dic的文件,内容如下:

直接写停用词,每一行写一个。

  • 加载自定义词库
复制代码
//去停用词
List<String> stopWords = getStopWords(System.getProperty("user.dir") + "/library/stopLibrary.dic");
StopRecognition filter = new StopRecognition(); 
filter.insertStopWords(stopWords);

String str = "欢迎使用ansj_seg,(ansj中文分词)在这里如果你遇到什么问题都可以联系我!" ;

//分词结果的一个封装,recognition增加分词过滤

Result result = ToAnalysis.parse(str).recognition(filter);

System.out.println(result.getTerms());

4.3.3 自主添加个别词

DicLibrary.insert(DicLibrary.DEFAULT, "抠图");

DicLibrary.insert(DicLibrary.DEFAULT,"抠图","n",1000);

4.3.4 歧义纠正词典

歧义纠正是Ansj分词的最后最后的大招了,杀伤力巨大,谨慎使用,极可能造成其他的错误。

很多时候,分词发生歧异不是很好调整,用户需要更强的规则来约束所以ansj中增加了歧异消除的一个强规则方式。

  • 创建一个名为library/ambiguity.dic 的文件,内容格式如下:

三个 m 和尚 n

动漫 n 游戏 n

李民 nr 工作 vn

第一列是识别串,第二列是分词结果,奇数行是词,偶数行是词性。这里例子告诉计算机:如果你发现 "李民工作"---> "李/民工/作" 纠正为 --->"李民/工作/" 这种类型

ps:这个是优先分词运行的.所以添加时候要谨慎。

  • 在配置文件中设置ambiguity.dic 的路径

ambiguityLibrary=library/ambiguity.dic

  • 也可以用 MyStaticValue.ambiguityLibrary = "library/ambiguity.dic" 来设定;
  • 也可动态添加歧义纠正词典:
java 复制代码
        System.out.println(ToAnalysis.parse("据说川府办发的发文很厉害"));

        //歧义纠正
        Value value = new Value("川府办", "川府办", "n");
        Library.insertWord(AmbiguityLibrary.get(), value);

        System.out.println(ToAnalysis.parse("据说川府办发的发文很厉害"));;

运行结果:

据说/v,川/j,府/ng,办发/j,的/u,发文/v,很/d,厉害/a

据说/v,川府办/n,发/v,的/u,发文/v,很/d,厉害/a

相关推荐
OptimaAI4 小时前
【 LLM论文日更|检索增强:大型语言模型是强大的零样本检索器 】
人工智能·深度学习·语言模型·自然语言处理·nlp
Watermelo6175 小时前
通过MongoDB Atlas 实现语义搜索与 RAG——迈向AI的搜索机制
人工智能·深度学习·神经网络·mongodb·机器学习·自然语言处理·数据挖掘
技术仔QAQ6 小时前
【tokenization分词】WordPiece, Byte-Pair Encoding(BPE), Byte-level BPE(BBPE)的原理和代码
人工智能·python·gpt·语言模型·自然语言处理·开源·nlp
龙的爹233310 小时前
论文 | The Capacity for Moral Self-Correction in LargeLanguage Models
人工智能·深度学习·机器学习·语言模型·自然语言处理·prompt
HyperAI超神经17 小时前
【TVM 教程】使用 Tensorize 来利用硬件内联函数
人工智能·深度学习·自然语言处理·tvm·计算机技术·编程开发·编译框架
学术搬运工21 小时前
【珠海科技学院主办,暨南大学协办 | IEEE出版 | EI检索稳定 】2024年健康大数据与智能医疗国际会议(ICHIH 2024)
大数据·图像处理·人工智能·科技·机器学习·自然语言处理
SEVEN-YEARS1 天前
BERT配置详解1:构建强大的自然语言处理模型
人工智能·自然语言处理·bert
正在走向自律1 天前
AI写作(二)NLP:开启自然语言处理的奇妙之旅(2/10)
人工智能·自然语言处理·ai写作
m0_523674211 天前
技术前沿:从强化学习到Prompt Engineering,业务流程管理的创新之路
人工智能·深度学习·目标检测·机器学习·语言模型·自然语言处理·数据挖掘
小言从不摸鱼1 天前
【AI大模型】ELMo模型介绍:深度理解语言模型的嵌入艺术
人工智能·深度学习·语言模型·自然语言处理·transformer