LangChain框架下DirectoryLoader使用报错zipfile.BadZipFile

环境:

conda create -n rag_new python=3.10 -y

conda activate rag_new

pip install langchain

pip install langchain-community

pip install langchain-core

pip install unstructured

pip install "unstructured[md]"

pip install "unstructured[image]"

pip install "unstructured[ppt]"

pip install pytesseract # ocr识别文字

pip install python-magic-bin #识别文件的类型

pip install chardet # 字符集编码

运行代码:

from langchain_community.document_loaders import DirectoryLoader, TextLoader

loader = DirectoryLoader("./数据",

silent_errors=True,

loader_kwargs={'autodetect_encoding': True})

docs = loader.load()

print(len(docs))

报错

解决方案:

1.执行下面代码,查找nltk路径

|--------------------------------------------------|
| import nltk # 查看路径 print(nltk.data.find('')) |

输出结果:

C:\Users\17662\AppData\Roaming\nltk_data

  1. 将D:\人工智能2024\大模型应用开发 RAG实战课\所需软件\ nltk_data.zip的内容解压到上述C:\Users\17662\AppData\Roaming\nltk_data里
  2. 将D:\人工智能2024\大模型应用开发 RAG实战课\所需软件\punkt.zip和punkt_tab.zip两个复制到C:\Users\17662\AppData\Roaming\nltk_data\tokenizers目录里,并解压

如下所示

相关推荐
齐齐大魔王2 小时前
COCO 数据集
人工智能·机器学习
AI营销实验室3 小时前
原圈科技AI CRM系统赋能销售新未来,行业应用与创新点评
人工智能·科技
爱笑的眼睛113 小时前
超越MSE与交叉熵:深度解析损失函数的动态本质与高阶设计
java·人工智能·python·ai
tap.AI3 小时前
RAG系列(一) 架构基础与原理
人工智能·架构
北邮刘老师4 小时前
【智能体互联协议解析】北邮ACPs协议和代码与智能体互联AIP标准的关系
人工智能·大模型·智能体·智能体互联网
亚马逊云开发者4 小时前
使用Amazon Q Developer CLI快速构建市场分析智能体
人工智能
Coding茶水间4 小时前
基于深度学习的非机动车头盔检测系统演示与介绍(YOLOv12/v11/v8/v5模型+Pyqt5界面+训练代码+数据集)
图像处理·人工智能·深度学习·yolo·目标检测·机器学习·计算机视觉
Rose sait4 小时前
【环境配置】Linux配置虚拟环境pytorch
linux·人工智能·python
福客AI智能客服4 小时前
从被动响应到主动赋能:家具行业客服机器人的革新路径
大数据·人工智能