LangChain框架下DirectoryLoader使用报错zipfile.BadZipFile

环境:

conda create -n rag_new python=3.10 -y

conda activate rag_new

pip install langchain

pip install langchain-community

pip install langchain-core

pip install unstructured

pip install "unstructured[md]"

pip install "unstructured[image]"

pip install "unstructured[ppt]"

pip install pytesseract # ocr识别文字

pip install python-magic-bin #识别文件的类型

pip install chardet # 字符集编码

运行代码:

from langchain_community.document_loaders import DirectoryLoader, TextLoader

loader = DirectoryLoader("./数据",

silent_errors=True,

loader_kwargs={'autodetect_encoding': True})

docs = loader.load()

print(len(docs))

报错

解决方案:

1.执行下面代码,查找nltk路径

|--------------------------------------------------|
| import nltk # 查看路径 print(nltk.data.find('')) |

输出结果:

C:\Users\17662\AppData\Roaming\nltk_data

  1. 将D:\人工智能2024\大模型应用开发 RAG实战课\所需软件\ nltk_data.zip的内容解压到上述C:\Users\17662\AppData\Roaming\nltk_data里
  2. 将D:\人工智能2024\大模型应用开发 RAG实战课\所需软件\punkt.zip和punkt_tab.zip两个复制到C:\Users\17662\AppData\Roaming\nltk_data\tokenizers目录里,并解压

如下所示

相关推荐
万行19 分钟前
机器学习&第五章生成式生成器
人工智能·python·算法·机器学习
独自破碎E19 分钟前
介绍一下Spring AI框架
java·人工智能·spring
laplace012320 分钟前
第三章 大语言模型基础
人工智能·语言模型·自然语言处理·agent·rag
Lun3866buzha31 分钟前
轮胎胎面花纹识别与分类:基于solo_r50_fpn模型的实现与优化
人工智能·分类·数据挖掘
没学上了31 分钟前
VLM-单头自注意力机制核心逻辑
人工智能·pytorch·深度学习
zhangdawei83832 分钟前
英伟达GB200,GB300和普通服务器如dell R740xd有什么区别?
运维·服务器·人工智能
Mintopia32 分钟前
意图OS是未来软件形态,它到底解决了什么问题?
人工智能·react native·前端工程化
Mintopia33 分钟前
🤖 AI 决策 + 意图OS:未来软件形态的灵魂共舞
前端·人工智能·react native
万行37 分钟前
机器学习&第一章
人工智能·python·机器学习·flask·计算机组成原理
实战项目37 分钟前
基于PyTorch的卷积神经网络花卉识别系统
人工智能·pytorch·cnn