NLP/Natural Language Processing

一、NLP是什么

自然语言处理( Natural Language Processing, NLP)是计算机科学领域与人工智能领域中的一个重要方向，也就是人们常说的「自然语言处理」，就是研究如何让计算机读懂人类语言，即将人的自然语言转换为计算机可以阅读的指令。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系，但又有重要的区别。自然语言处理并不是一般地研究自然语言，而在于研制能有效地实现自然语言通信的计算机系统，特别是其中的软件系统。因而它是计算机科学的一部分。

自然语言处理，即实现人机间自然语言通信，或实现自然语言理解和自然语言生成是十分困难的。造成困难的根本原因是自然语言文本和对话的各个层次上广泛存在的各种各样的歧义性或多义性（ambiguity）。

自然语言的形式（字符串）与其意义之间是一种多对多的关系。其实这也正是自然语言的魅力所在。但从计算机处理的角度看，我们必须消除歧义，而且有人认为它正是自然语言理解中的中心问题，即要把带有潜在歧义的自然语言输入转换成某种无歧义的计算机内部表示。

歧义现象的广泛存在使得消除它们需要大量的知识和推理，这就给基于语言学的方法、基于知识的方法带来了巨大的困难，因而以这些方法为主流的自然语言处理研究几十年来一方面在理论和方法方面取得了很多成就，但在能处理大规模真实文本的系统研制方面，成绩并不显著。研制的一些系统大多数是小规模的、研究性的演示系统。

目前存在的问题有两个方面：一方面，迄今为止的语法都限于分析一个孤立的句子，上下文关系和谈话环境对本句的约束和影响还缺乏系统的研究，因此分析歧义、词语省略、代词所指、同一句话在不同场合或由不同的人说出来所具有的不同含义等问题，尚无明确规律可循，需要加强语用学的研究才能逐步解决。另一方面，人理解一个句子不是单凭语法，还运用了大量的有关知识，包括生活知识和专门知识，这些知识无法全部贮存在计算机里。因此一个书面理解系统只能建立在有限的词汇、句型和特定的主题范围内；计算机的贮存量和运转速度大大提高之后，才有可能适当扩大范围。

以上存在的问题成为自然语言理解在机器翻译应用中的主要难题，这也就是当今机器翻译系统的译文质量离理想目标仍相差甚远的原因之一；而译文质量是机译系统成败的关键。中国数学家、语言学家周海中教授曾在经典论文《机器翻译五十年》中指出：要提高机译的质量，首先要解决的是语言本身问题而不是程序设计问题；单靠若干程序来做机译系统，肯定是无法提高机译质量的；另外在人类尚未明了大脑是如何进行语言的模糊识别和逻辑判断的情况下，机译要想达到"信、达、雅"的程度是不可能的。

二、NLP类别

**1、文本挖掘：**主要包含了文本的分类、聚类、信息抽取、摘要、情感分析以及对挖掘的信息和知识的可视化、交互式的呈现界面，这些统称为文本挖掘任务。

**2、信息检索：**对大规模文档进行索引。可简单对文档中的词汇，赋予不同的权重来建立索引，也可以使用算法来建立更深层的索引。查询时，首先对输入进行分析，然后在索引里面查找匹配的候选文档，再根据一个排序机制把候选文档排序，最后输出排序得分最高的文档。

**3、句法语义分析：**针对目标句子，进行各种句法分析，如分词、词性标记、命名实体识别及句法分析、语义角色识别和多义词消歧等。

**4、机器翻译：**随着通信技术与互联网技术的飞速发展、信息的急剧增加以及国际联系愈加紧密，让世界上所有人都能跨越语言障碍获取信息的挑战已经超出了人类翻译的能力范围。

机器翻译因其效率高、成本低满足了全球各国多语言信息快速翻译的需求，从最早的基于规则到二十年前的基于统计的方法，再到今天的基于深度学习(编解码)的方法，逐渐形成了一套比较严谨的方法体系。机器翻译属于自然语言信息处理的一个分支，能够根据一种自然语言自动生成另一种自然语言。目前，谷歌翻译、百度翻译、搜狗翻译等人工智能行业巨头推出的翻译平台逐渐凭借其翻译过程的高效性和准确性占据了翻译行业的主导地位。

**5、问答系统：**随着互联网的快速发展，网络信息量不断增加，人们需要获取更加精确的信息。传统的搜索引擎技术已经不能满足人们越来越高的需求，而自动问答技术成为了解决这一问题的有效手段。

自动问答是指利用计算机自动回答用户所提出的问题以满足用户知识需求的任务，在回答用户问题时，首先要正确理解用户所提出的问题，抽取其中关键的信息，在已有的语料库或者知识库中进行检索、匹配，将获取的答案反馈给用户。

**6、对话系统：**系统通过多回合对话，跟用户进行聊天、回答、完成某项任务，主要涉及用户意图识别、通用聊天引擎、问答引擎、对话管理系统等技术。此外，为了提现上下文相关，要具备多轮对话能力。同时，为了提现个性化，对话系统还需要基于用户画像做个性化回复。

总的来看，自然语言处理有2大核心任务，自然语言理解（NLU）和自然语言生成（NLG）。对人来说，理解语言是一件很自然的事情，但对机器来说却是很困难的事情。语言的鲁棒性都是导致自然语言理解的主要难点，其中包括：语言的多样性、歧义性、知识依赖、上下文关系等。这些难点也将会带来实际处理时的一系列困难：生成语句的语法结构、语义表达是否准确，信息是否重复等。

为了解决上述问题，一些基本的自然语言处理方向便应运而生，包括：分词、词性标注、词形还原、依赖关系解析、命名实体识别、序列标注、句子关系识别等。

除此之外，自然语言处理还包括了很多具体应用，例如：信息检索、信息抽取、文本分类与聚类、机器翻译、摘要生成、聊天机器人等等。它涉及与语言处理相关的数据挖掘、机器学习、语言学研究，以及近年来非常流行的深度学习等。