LangChain框架下DirectoryLoader使用报错zipfile.BadZipFile

环境:

conda create -n rag_new python=3.10 -y

conda activate rag_new

pip install langchain

pip install langchain-community

pip install langchain-core

pip install unstructured

pip install "unstructured[md]"

pip install "unstructured[image]"

pip install "unstructured[ppt]"

pip install pytesseract # ocr识别文字

pip install python-magic-bin #识别文件的类型

pip install chardet # 字符集编码

运行代码:

from langchain_community.document_loaders import DirectoryLoader, TextLoader

loader = DirectoryLoader("./数据",

silent_errors=True,

loader_kwargs={'autodetect_encoding': True})

docs = loader.load()

print(len(docs))

报错

解决方案:

1.执行下面代码,查找nltk路径

|--------------------------------------------------|
| import nltk # 查看路径 print(nltk.data.find('')) |

输出结果:

C:\Users\17662\AppData\Roaming\nltk_data

  1. 将D:\人工智能2024\大模型应用开发 RAG实战课\所需软件\ nltk_data.zip的内容解压到上述C:\Users\17662\AppData\Roaming\nltk_data里
  2. 将D:\人工智能2024\大模型应用开发 RAG实战课\所需软件\punkt.zip和punkt_tab.zip两个复制到C:\Users\17662\AppData\Roaming\nltk_data\tokenizers目录里,并解压

如下所示

相关推荐
罗西的思考12 小时前
AI Agent框架探秘:拆解 OpenHands(10)--- Runtime
人工智能·算法·机器学习
冬奇Lab13 小时前
OpenClaw 源码精读(2):Channel & Routing——一条消息如何找到它的 Agent?
人工智能·开源·源码阅读
冬奇Lab13 小时前
一天一个开源项目(第38篇):Claude Code Telegram - 用 Telegram 远程用 Claude Code,随时随地聊项目
人工智能·开源·资讯
格砸14 小时前
从入门到辞职|从ChatGPT到OpenClaw,跟上智能时代的进化
前端·人工智能·后端
可观测性用观测云14 小时前
可观测性 4.0:教系统如何思考
人工智能
sunny86514 小时前
Claude Code 跨会话上下文恢复:从 8 次纠正到 0 次的工程实践
人工智能·开源·github
小笼包包仔15 小时前
OpenClaw 多Agent软件开发最佳实践指南
人工智能
smallyoung15 小时前
AgenticRAG:智能体驱动的检索增强生成
人工智能
_skyming_15 小时前
OpenCode 如何做到结果不做自动质量评估,为什么结果还不错?
人工智能
南山安15 小时前
手写 Cursor 核心原理:从 Node.js 进程到智能 Agent
人工智能·agent·设计