当前目录下的excel文件的两列内容的相似度比较

-- coding: utf-8 --**

from sklearn.feature_extraction.text import CountVectorizer

from sklearn.metrics.pairwise import cosine_similarity

import numpy as np

import pandas as pd

import os

获取当前目录

current_dir = os.getcwd()

获取当前目录下所有xlsx文件名

xlsx_files = [file for file in os.listdir(current_dir) if file.endswith(".xlsx")]

打印xlsx文件名

for file in xlsx_files:

print(file)

读取Excel文件

excel_file = file

data = pd.read_excel(excel_file)

提取第3列和第5列的值

column3_values = data.iloc[:, 1] # 第3列的值

column5_values = data.iloc[:, 3] # 第5列的值

打印提取的值

print("第3列的值:")

print(column3_values)

print("\n第5列的值:")

print(column5_values)

print(len(column3_values))

print(len(column5_values))

res=[]

# 两段话

for i in range(len(column3_values)):

创建计数向量器

vectorizer = CountVectorizer().fit_transform([column3_values[i], column5_values[i]])

计算余弦相似度

cosine_sim = cosine_similarity(vectorizer)

提取余弦相似度值

similarity_value = cosine_sim[0][1]

if similarity_value>0.3:

res.append("正确")

elif similarity_value>0.05 and similarity_value<0.3:

res.append("部分正确")

else:

res.append("错误")

res.append(similarity_value)

print("两段话的余弦相似度:", similarity_value)

指定txt文件名

txt_file =excel_file.replace(".xlsx","")+".txt"

将列表逐行写入txt文件

with open(txt_file, 'w') as f:

for item in res:

f.write("%s\n" % item)

print("内容已写入到", txt_file)

相关推荐
一个散步者的梦4 小时前
Excel常用函数
excel
技术无疆11 小时前
【Python】Uvicorn:Python 异步 ASGI 服务器详解
运维·服务器·开发语言·网络·python·pygame·python3.11
bin915313 小时前
【EXCEL数据处理】000009 案列 EXCEL单元格数字格式。文本型数字格式和常规型数字格式的区别
大数据·前端·数据库·信息可视化·数据分析·excel·数据可视化
技术无疆1 天前
【Python】Arrow使用指南:轻松管理日期与时间
开发语言·人工智能·python·深度学习·机器学习·数据挖掘·python3.11
Eiceblue1 天前
Python保留数据删除Excel单元格的函数和公式
开发语言·python·excel
bin91531 天前
【EXCEL数据处理】000014 案例 EXCEL分类汇总、定位和创建组。附多个操作案例。
信息可视化·数据挖掘·数据分析·excel·数据可视化·数据图表·excel 数据分析
育种数据分析之放飞自我1 天前
GWAS分析中显著位点如何注释基因:excel???
linux·算法·excel
PowerBI学谦1 天前
Python in Excel 正式发布!
开发语言·python·excel
bin91531 天前
【EXCEL数据处理】000011 案列 EXCEL带有三角形图标的单元格转换,和文本日期格式转换。
大数据·数据库·信息可视化·数据挖掘·数据分析·excel·数据可视化
股票程序交易接口1 天前
股票接口api,如何用excel获得股票实时数据
excel·量化交易·股票api接口·股票量化接口·python股票接口·股票实时数据