关键词提取技术:TF-IDF 和 TextRank 简介

关键词提取是自然语言处理中的重要任务之一,用于自动提取文档中最能代表其内容的词汇。两种常用的关键词提取技术是 TF-IDFTextRank。它们的工作机制和应用场景有所不同,下面将详细解释这两种技术。

1. TF-IDF(Term Frequency - Inverse Document Frequency)

TF-IDF 是一种统计方法,用于评估某个词语在一篇文档中的重要性,基于词频(TF)和逆文档频率(IDF)。它的基本原理是:某个词语在文档中出现的次数越多(高词频),且在整个语料库中出现的次数越少(低逆文档频率),那么该词在当前文档中的重要性就越高。

公式:
  1. TF(词频):表示某个词在文档中出现的频率。它可以通过词在文档中的出现次数除以文档的总词数计算。

2. IDF(逆文档频率):表示词在整个语料库中的稀有程度。它通过总文档数与包含该词的文档数之比的对数值计算。

3. TF-IDF:通过将词频(TF)和逆文档频率(IDF)相乘,计算出某个词的重要性得分。

TF-IDF(t)=TF(t)×IDF(t)

特点:
  • 局限性:TF-IDF是基于统计的技术,因此它无法捕捉到词语之间的关系或上下文信息。
  • 适用场景:适合需要从文档中提取最具代表性的单词的任务,如文本分类、搜索引擎优化、关键词推荐等。

2. TextRank

TextRank 是一种基于图(Graph)的无监督关键词提取算法,它是从PageRank算法中衍生而来,用于评估文本中每个词的重要性。TextRank通过构建词汇之间的关系图(共现关系)来计算每个词的权重,从而确定哪些词是最重要的关键词。

基本步骤:
  1. 文本预处理:将文档进行分词、去停用词和词干提取(或词形还原)。

  2. 构建词图:将文本中的词语作为图的节点。如果两个词在一个窗口中共同出现(窗口大小可以人为设置),则在这两个词之间建立一条边,表示它们具有一定的关联性。

  3. 边的权重:可以根据词语的共现次数或距离来赋予边权重。共现次数越多的词对彼此的重要性影响越大。

  4. 迭代计算:与PageRank算法相似,TextRank对图中的每个节点(词)进行迭代更新权重,直到收敛。计算公式为(因为不知道):

其中, 表示句子 i 的权重,右侧的求和表示每个相邻句子对本句子的贡献程度,在单文档中,我们可以粗略的认为所有句子都是相邻的,不需要像多文档一样进行多个窗口的生成和抽取,仅需单一文档窗口即可," In(i) 表示指向 的词集,Out(j) 是从 出发的词集, 表示两个句子的相似度, 代表上次迭代出的句子 j 的权重。d是阻尼系数,一股为0.85,以防止算法陷入死循环。

  1. 选择高分词作为关键词:最后,根据词的得分排序,选出得分最高的若干词作为关键词。
特点:
  • 上下文信息:TextRank能够考虑到词语之间的共现关系,因此可以捕捉到词语的上下文信息。
  • 无监督:它是一种无监督方法,不需要额外的标注数据。
  • 适用场景:适用于抽取多词短语、摘要生成、关键词提取等任务,尤其适合从长文本中提取重要信息。

3. TF-IDF 与 TextRank 的对比

特点 TF-IDF TextRank
依赖数据 依赖整个语料库 无需依赖全局语料库
处理方式 基于统计方法,忽略词与词之间的关系 基于图模型,考虑词的共现和上下文信息
关键词类型 通常提取单个词 可以提取多词短语
计算复杂度 计算简单,适合大规模数据 计算复杂,需要构建图结构
应用场景 搜索引擎、文本分类等 摘要生成、关键词提取等

4. 应用场景

  • TF-IDF
    • 用于文档的关键词提取和文本分类,如新闻文章的主题提取。
    • 搜索引擎中的文档检索系统,用于根据查询内容匹配相关文档。
    • 文本聚类任务,帮助定义聚类中心的核心关键词。
  • TextRank
    • 文本摘要生成:通过提取关键词或重要句子来生成文本摘要。
    • 文档关键词提取:适合从较长的文本中提取重要关键词和短语。
    • 内容推荐:根据提取的关键词为用户提供相关内容的推荐。

总结

TF-IDF 和 TextRank 都是广泛应用的关键词提取技术。TF-IDF通过统计词频和文档频率计算关键词的权重,适合处理结构化文档或大规模文档集。而TextRank利用图模型考虑词语之间的共现关系,适合无监督的关键词提取和文本摘要生成。在实际应用中,两者可以根据任务需求结合使用,例如使用TextRank来提取多词短语,使用TF-IDF来处理高频词。

相关推荐
AIGCmagic社区10 小时前
AI多模态技术介绍:理解多模态大语言模型的原理
人工智能·语言模型·自然语言处理
开放知识图谱13 小时前
论文浅尝 | HippoRAG:神经生物学启发的大语言模型的长期记忆(Neurips2024)
人工智能·语言模型·自然语言处理
i查拉图斯特拉如是19 小时前
基于MindSpore NLP的PEFT微调
人工智能·自然语言处理
野蛮的大西瓜1 天前
BigBlueButton视频会议 vs 钉钉视频会议系统的详细对比
人工智能·自然语言处理·自动化·音视频·实时音视频·信息与通信·视频编解码
Hugging Face2 天前
欢迎 PaliGemma 2 – 来自 Google 的新视觉语言模型
人工智能·语言模型·自然语言处理
宝贝儿好2 天前
【NLP】第七章:Transformer原理及实操
人工智能·深度学习·自然语言处理·transformer
新加坡内哥谈技术2 天前
OpenAI发布全新AI模型 o3 与 o3-mini:推理与编码能力迎来重大突破. AGI 来临
大数据·人工智能·语言模型·自然语言处理
三月七(爱看动漫的程序员)2 天前
Knowledge Graph Prompting for Multi-Document Question Answering
人工智能·gpt·学习·语言模型·自然语言处理·机器人·知识图谱
sp_fyf_20242 天前
【大语言模型】ACL2024论文-28 TTM-RE: 增强记忆的文档级关系抽取
人工智能·深度学习·机器学习·计算机视觉·语言模型·自然语言处理·数据挖掘
sp_fyf_20242 天前
【大语言模型】ACL2024论文-33 Johnny 如何说服大型语言模型越狱:通过人性化 LLMs 重新思考挑战 AI 安全性的说服技巧
人工智能·深度学习·机器学习·语言模型·自然语言处理·数据挖掘