利用tf-idf对特征进行提取

TF-IDF是一种文本特征提取的方法,用于评估一个词在一组文档中的重要性。

一、代码

python 复制代码
from sklearn.feature_extraction.text import TfidfVectorizer
import numpy as np

def print_tfidf_words(documents):
    """
    打印TF-IDF矩阵中每个文档中非零值对应的单词及其概率。
    
    Parameters:
    - documents: list,包含文档的列表
    
    Returns:
    - None
    """
    # 创建TF-IDF向量化器
    vectorizer = TfidfVectorizer()
    
    # 对文档集合进行拟合和转换
    tfidf_matrix = vectorizer.fit_transform(documents)
    
    # 获取特征词列表
    feature_names = vectorizer.get_feature_names_out()

    # 将TF-IDF矩阵转换为稠密矩阵
    # 在TF-IDF矩阵中,每一行代表一个文档,每一列代表一个特征词
    # 非零值对应的列索引  就是  该文档中的非零权重对应的单词  在特征词列表中的索引
    # dense_tfidf_matrix 是一个 NumPy 稠密矩阵,可以使用索引操作符 [row, column] 来获取矩阵中的特定元素
    dense_tfidf_matrix = tfidf_matrix.todense()
    
    # 打印每个文档中非零值对应的单词及其概率
    for i, document in enumerate(dense_tfidf_matrix):
        nonzero_indices = document.nonzero()[1]
        dic = {idx: document[0, idx] for idx in nonzero_indices}
        # 根据概率进行排序
        sorted_dic = dict(sorted(dic.items(), key=lambda x: x[1], reverse=True))
        words = {feature_names[k]: v for k, v in sorted_dic.items()}
        print(f"文档 {i + 1} 中的非零值对应的单词及其概率:{words}")

    # 打印特征词对应的索引
    print("Feature indices:", {feature: index for index, feature in enumerate(feature_names)})

# 示例文档集合
documents = [
    "This is the first document.",
    "This document is the second document.",
    "And this is the third one.",
    "Is this the first document?"
]

# 调用函数打印结果
print_tfidf_words(documents)

二、结果

相关推荐
赴3351 天前
机器学习 TF-IDF提取关键词,从原理到实践的文本特征提取利器
人工智能·机器学习·tf-idf·sklearn
欧阳小猜11 天前
机器学习②【字典特征提取、文本特征处理(TF-IDF)、数据标准化与归一化、特征降维】
人工智能·机器学习·tf-idf
合作小小程序员小小店23 天前
web网页开发,在线%微博,舆情%系统,基于python,pycharm,django,nlp,内容推荐,余弦,线性,TF-IDF,mysql
自然语言处理·django·nlp·html5·tf-idf
suixinm2 个月前
One-Hot、BOW、TF-IDF、N-Gram区别
tf-idf
IT古董3 个月前
【漫话机器学习系列】227.信息检索与数据挖掘中的常用加权技术(TF-IDF)
机器学习·数据挖掘·tf-idf
闭月之泪舞4 个月前
TF-IDF——自然语言处理——红楼梦案例
tf-idf
梦丶晓羽5 个月前
自然语言处理:无监督朴素贝叶斯模型
人工智能·python·自然语言处理·tf-idf·贝叶斯定理·词袋模型·无监督朴素贝叶斯模型
梦丶晓羽5 个月前
自然语言处理:文本表示
人工智能·python·自然语言处理·tf-idf·word2vec·glove
思想在拧紧6 个月前
文本表示方法
tf-idf·glove·词向量·cbow·bow
htuhxf6 个月前
TfidfVectorizer
python·自然语言处理·nlp·tf-idf·文本特征