【Python机器学习】NLP分词——词干还原的挑战

要想使用自然语言处理的相关应用,第一件事就是需要一个强大的词汇表。我们要把文档或任何字符串拆分为离散的有意义的词条,这里说的词条仅限于词、标点符号和数值,但是这里使用的技术可以很容易推广到字符序列包含的任何其他有意义的单元,比如ASCII表情符号、Unicode表情符号和数学符号。

从文档中检索词条需要一些字符串处理方法,这些方法不仅仅是str.split(),处理时需要把标点符号与词分开,还需要将"we'll"这样的缩写词还原成原始词。一旦从文档中确定好要加入词汇表的词条之后,需要使用正则表达式工具来将意义相似的词合并在一起,这个过程被称为词干还原。然后我们就可以将文档表示成词袋向量。

词还可以在分成更细粒度的意义单元。词本身可以分成更小的有意义部分。诸如"re""pre"和"ing"之类的音节、前缀和后缀都有其内在含义。词的各组成部分还可以进一步分成更细粒度的意义单元。

我们要将输入串切分成词,同时我们还可以提取出连续2个、3个、4个甚至5个词条组成的次对、三元组、四元组和五元组。这些语言单位称为n-gram(n元)。连续两个词称为2-gram(bigram),连续3个词称为3-gram,以此类推。利用n-gram可以让机器不仅认识"ice"和"cream",也认识它们构成的2-gram"icecream"。

之后,所有的2-gram(和其他较短的n-gram)都将放到最后的词汇表当中,然后利用词的文档频率来估计他们的重要性。利用这种方法可以过滤掉那些函件的词对或三元组。在任何机器学习流水线中,特征提取很少能够完全保留输入数据的所有信息内容,这也是NLP的一部分:当需要调整分词器以便从具体应用的文本中提取更多或不一样的信息时,要进行学习。

在自然语言处理中,从文本中产生其数值向量实际是一个特别"有损"的特征提取过程。尽管如此,词袋BOW)向量从文本中保留了足够的信息内容来产生有用和有趣的机器学习模型。

为了说明特征提取困难的原因,我们可以看一个case。所谓词干还原,指的是将某个词的不同屈折变化形式统统"打包"到同一个"桶"或类别中。假定要将"ending"中的动词后缀"ing"去掉,那么就需要有一个称为"end"的词干来表示上面两个词。同时,我们将词"running"还原成"run",于是这两个词就可以同等对待,当然,上述处理过程实际上有些棘手,因为"running"中要去掉的不仅是"ing"还有一个额外的"n"。还有,对于"sing"来说,我们不能去掉"ing",否则就只剩了个"s"。

还有一些名词复数后面的"s"(比如words)和词本身(比如bus)后面就有的"s"。词当中一个个独立的字母或者词的一部分为整个词的意义提供了信息、这些字母还可能产生误导。

相关推荐
100个铜锣烧4 小时前
高级提示技术:Chain-of-Thought与ReAct——让大模型学会“思考”和“行动”
人工智能·大模型·提示词工程
无限的鲜花4 小时前
反射(原创推荐)
java·开发语言
JackHCC4 小时前
快手OneRetrieval:可编辑生成式电商召回
人工智能·机器学习
hhzz5 小时前
基于监控视频的水位尺自动识别技术方案与实现
python·opencv·yolo·图像识别·cv
yongche_shi5 小时前
ragas官方文档中文版(五十)
开发语言·python·ai·ragas·如何评估和改进 rag 应用
前端之虎陈随易5 小时前
编程语言级别的Skill市场,AI Agent 的未来形态
前端·vue.js·人工智能·typescript·node.js
一路向北he5 小时前
字节钢铁军团--“提供情境,而非控制”
java·开发语言·前端
QiLinkOS5 小时前
第三视觉理解徐玉生与他的商业活动(30)
大数据·c++·人工智能·算法·开源协议
武汉唯众智创5 小时前
当汉字成为心理CT:AI汉字联想投射分析的技术实现与心理评估价值
人工智能·ai心理健康·ai心理评估·本土化心理测评·校园心理健康解决方案·ai心理监测·多模态情绪模型
Longvox5 小时前
Agent为什么会死循环?
人工智能·ai编程