LangChain框架下DirectoryLoader使用报错zipfile.BadZipFile

环境:

conda create -n rag_new python=3.10 -y

conda activate rag_new

pip install langchain

pip install langchain-community

pip install langchain-core

pip install unstructured

pip install "unstructured[md]"

pip install "unstructured[image]"

pip install "unstructured[ppt]"

pip install pytesseract # ocr识别文字

pip install python-magic-bin #识别文件的类型

pip install chardet # 字符集编码

运行代码:

from langchain_community.document_loaders import DirectoryLoader, TextLoader

loader = DirectoryLoader("./数据",

silent_errors=True,

loader_kwargs={'autodetect_encoding': True})

docs = loader.load()

print(len(docs))

报错

解决方案:

1.执行下面代码,查找nltk路径

|--------------------------------------------------|
| import nltk # 查看路径 print(nltk.data.find('')) |

输出结果:

C:\Users\17662\AppData\Roaming\nltk_data

  1. 将D:\人工智能2024\大模型应用开发 RAG实战课\所需软件\ nltk_data.zip的内容解压到上述C:\Users\17662\AppData\Roaming\nltk_data里
  2. 将D:\人工智能2024\大模型应用开发 RAG实战课\所需软件\punkt.zip和punkt_tab.zip两个复制到C:\Users\17662\AppData\Roaming\nltk_data\tokenizers目录里,并解压

如下所示

相关推荐
ASKED_20199 小时前
KDD Cup 2026 腾讯算法广告大赛赛题解读: UNI-REC (统一序列建模与特征交叉)
人工智能
fpcc9 小时前
AI和大模型——Fine-tuning
人工智能·深度学习
爱问的艾文9 小时前
八周带你手搓AI应用-Day4-赋予你的AI“记忆力”
人工智能
ACP广源盛139246256739 小时前
IX8024与科学大模型的碰撞@ACP#筑牢科研 AI 算力高速枢纽分享
运维·服务器·网络·数据库·人工智能·嵌入式硬件·电脑
向量引擎9 小时前
向量引擎接入 GPT Image 2 和 deepseek v4:一个 api key 把热门模型串起来,开发者终于不用深夜修接口了
人工智能·gpt·计算机视觉·aigc·api·ai编程·key
努力努力再努力FFF10 小时前
医生对AI辅助诊断感兴趣,作为临床人员该怎么了解和学习?
人工智能·学习
AI医影跨模态组学10 小时前
如何将纵向MRI深度学习特征与局部晚期直肠癌新辅助放化疗后的免疫微环境建立关联,并解释其对pCR及预后的机制
人工智能·深度学习·论文·医学·医学影像·影像组学
Empty-Filled10 小时前
AI生成测试用例功能怎么测:一个完整实战案例
网络·人工智能·测试用例
eastyuxiao10 小时前
设计一个基于 OpenClaw 的 AI 智能体来辅助交易
人工智能
波动几何10 小时前
因果动力学架构技能cda
人工智能