关键词提取技术:TF-IDF 和 TextRank 简介

关键词提取是自然语言处理中的重要任务之一,用于自动提取文档中最能代表其内容的词汇。两种常用的关键词提取技术是 TF-IDFTextRank。它们的工作机制和应用场景有所不同,下面将详细解释这两种技术。

1. TF-IDF(Term Frequency - Inverse Document Frequency)

TF-IDF 是一种统计方法,用于评估某个词语在一篇文档中的重要性,基于词频(TF)和逆文档频率(IDF)。它的基本原理是:某个词语在文档中出现的次数越多(高词频),且在整个语料库中出现的次数越少(低逆文档频率),那么该词在当前文档中的重要性就越高。

公式:
  1. TF(词频):表示某个词在文档中出现的频率。它可以通过词在文档中的出现次数除以文档的总词数计算。

2. IDF(逆文档频率):表示词在整个语料库中的稀有程度。它通过总文档数与包含该词的文档数之比的对数值计算。

3. TF-IDF:通过将词频(TF)和逆文档频率(IDF)相乘,计算出某个词的重要性得分。

TF-IDF(t)=TF(t)×IDF(t)

特点:
  • 局限性:TF-IDF是基于统计的技术,因此它无法捕捉到词语之间的关系或上下文信息。
  • 适用场景:适合需要从文档中提取最具代表性的单词的任务,如文本分类、搜索引擎优化、关键词推荐等。

2. TextRank

TextRank 是一种基于图(Graph)的无监督关键词提取算法,它是从PageRank算法中衍生而来,用于评估文本中每个词的重要性。TextRank通过构建词汇之间的关系图(共现关系)来计算每个词的权重,从而确定哪些词是最重要的关键词。

基本步骤:
  1. 文本预处理:将文档进行分词、去停用词和词干提取(或词形还原)。

  2. 构建词图:将文本中的词语作为图的节点。如果两个词在一个窗口中共同出现(窗口大小可以人为设置),则在这两个词之间建立一条边,表示它们具有一定的关联性。

  3. 边的权重:可以根据词语的共现次数或距离来赋予边权重。共现次数越多的词对彼此的重要性影响越大。

  4. 迭代计算:与PageRank算法相似,TextRank对图中的每个节点(词)进行迭代更新权重,直到收敛。计算公式为(因为不知道):

其中, 表示句子 i 的权重,右侧的求和表示每个相邻句子对本句子的贡献程度,在单文档中,我们可以粗略的认为所有句子都是相邻的,不需要像多文档一样进行多个窗口的生成和抽取,仅需单一文档窗口即可," In(i) 表示指向 的词集,Out(j) 是从 出发的词集, 表示两个句子的相似度, 代表上次迭代出的句子 j 的权重。d是阻尼系数,一股为0.85,以防止算法陷入死循环。

  1. 选择高分词作为关键词:最后,根据词的得分排序,选出得分最高的若干词作为关键词。
特点:
  • 上下文信息:TextRank能够考虑到词语之间的共现关系,因此可以捕捉到词语的上下文信息。
  • 无监督:它是一种无监督方法,不需要额外的标注数据。
  • 适用场景:适用于抽取多词短语、摘要生成、关键词提取等任务,尤其适合从长文本中提取重要信息。

3. TF-IDF 与 TextRank 的对比

特点 TF-IDF TextRank
依赖数据 依赖整个语料库 无需依赖全局语料库
处理方式 基于统计方法,忽略词与词之间的关系 基于图模型,考虑词的共现和上下文信息
关键词类型 通常提取单个词 可以提取多词短语
计算复杂度 计算简单,适合大规模数据 计算复杂,需要构建图结构
应用场景 搜索引擎、文本分类等 摘要生成、关键词提取等

4. 应用场景

  • TF-IDF
    • 用于文档的关键词提取和文本分类,如新闻文章的主题提取。
    • 搜索引擎中的文档检索系统,用于根据查询内容匹配相关文档。
    • 文本聚类任务,帮助定义聚类中心的核心关键词。
  • TextRank
    • 文本摘要生成:通过提取关键词或重要句子来生成文本摘要。
    • 文档关键词提取:适合从较长的文本中提取重要关键词和短语。
    • 内容推荐:根据提取的关键词为用户提供相关内容的推荐。

总结

TF-IDF 和 TextRank 都是广泛应用的关键词提取技术。TF-IDF通过统计词频和文档频率计算关键词的权重,适合处理结构化文档或大规模文档集。而TextRank利用图模型考虑词语之间的共现关系,适合无监督的关键词提取和文本摘要生成。在实际应用中,两者可以根据任务需求结合使用,例如使用TextRank来提取多词短语,使用TF-IDF来处理高频词。

相关推荐
听吉米讲故事7 小时前
DeepSeek R1发布综述:开源大语言模型的推理能力新标杆
人工智能·语言模型·自然语言处理
跟德姆(dom)一起学AI8 小时前
0基础跟德姆(dom)一起学AI 自然语言处理18-解码器部分实现
人工智能·python·rnn·深度学习·自然语言处理·transformer
清图8 小时前
Python 预训练:打通视觉与大语言模型应用壁垒——Python预训练视觉和大语言模型
人工智能·python·深度学习·机器学习·计算机视觉·自然语言处理·ai作画
琴智冰8 小时前
使用ollama本地部署微调后的大语言模型
人工智能·语言模型·自然语言处理
计算机软件程序设计10 小时前
自然语言处理(NLP)领域相关模型概述
人工智能·自然语言处理
CM莫问13 小时前
<论文>用于大语言模型去偏的因果奖励机制
人工智能·深度学习·算法·语言模型·自然语言处理
网安打工仔16 小时前
斯坦福李飞飞最新巨著《AI Agent综述》
人工智能·自然语言处理·大模型·llm·agent·ai大模型·大模型入门
流烟默1 天前
NLP自然语言处理中Word2Vec和GloVe概述
人工智能·自然语言处理
青松@FasterAI1 天前
Word2Vec如何优化从中间层到输出层的计算?
人工智能·深度学习·自然语言处理·nlp面题
新加坡内哥谈技术1 天前
本地 AI 模型“不实用”?
人工智能·语言模型·自然语言处理