当前目录下的excel文件的两列内容的相似度比较

-- coding: utf-8 --**

from sklearn.feature_extraction.text import CountVectorizer

from sklearn.metrics.pairwise import cosine_similarity

import numpy as np

import pandas as pd

import os

获取当前目录

current_dir = os.getcwd()

获取当前目录下所有xlsx文件名

xlsx_files = file for file in os.listdir(current_dir) if file.endswith(".xlsx")

打印xlsx文件名

for file in xlsx_files:

print(file)

读取Excel文件

excel_file = file

data = pd.read_excel(excel_file)

提取第3列和第5列的值

column3_values = data.iloc:, 1 # 第3列的值

column5_values = data.iloc:, 3 # 第5列的值

打印提取的值

print("第3列的值:")

print(column3_values)

print("\n第5列的值:")

print(column5_values)

print(len(column3_values))

print(len(column5_values))

res=\[\]

# 两段话

for i in range(len(column3_values)):

创建计数向量器

vectorizer = CountVectorizer().fit_transform(column3_values\[i, column5_valuesi])

计算余弦相似度

cosine_sim = cosine_similarity(vectorizer)

提取余弦相似度值

similarity_value = cosine_sim01

if similarity_value>0.3:

res.append("正确")

elif similarity_value>0.05 and similarity_value<0.3:

res.append("部分正确")

else:

res.append("错误")

res.append(similarity_value)

print("两段话的余弦相似度:", similarity_value)

指定txt文件名

txt_file =excel_file.replace(".xlsx","")+".txt"

将列表逐行写入txt文件

with open(txt_file, 'w') as f:

for item in res:

f.write("%s\n" % item)

print("内容已写入到", txt_file)

相关推荐
Non-existent9876 天前
WPS批量清理单元格空白字符的4种方法-异常数字格式处理-实战
excel·wps
Channing Lewis6 天前
PHP 解析 Excel 的那些坑:一次“行号错位”引发的数据丢失
开发语言·php·excel
jarreyer6 天前
【数据分析绘图】excel绘图和bi工具区别
数据挖掘·数据分析·excel
chatexcel6 天前
ChatExcel Max使用教程:图片、PDF、网页与复杂Excel的一站式数据分析
数据分析·pdf·excel
cngkqy6 天前
excel从某一列中用match筛选匹配的数据
excel
qq_546937276 天前
Excel批量转PDF_Word_图片,支持自动合并报表,效率翻倍。
pdf·word·excel
ai_coder_ai6 天前
在自动化脚本中操作excel文件
运维·自动化·excel
三千花灯6 天前
【Playwright】 自动化测试之参数化登录(Excel/CSV 数据源)
人工智能·机器学习·excel
罗政6 天前
AI工作流实现Excel全自动化(支持SQL)-案例:医院门诊排班表
人工智能·自动化·excel
小妖6666 天前
excel 怎么在单元格内容自动加上一段文字不能用公式
excel·vba