Py之llama-parse:llama-parse(高效解析和表示文件)的简介、安装和使用方法、案例应用之详细攻略

Py之llama-parse:llama-parse(高效解析和表示文件)的简介、安装和使用方法、案例应用之详细攻略

目录

llama-parse的简介

llama-parse的安装和使用方法

1、安装

2、使用方法

[第一步,获取API 密钥](#第一步,获取API 密钥)

第二步,安装LlamaIndex、LlamaParse

LLM之RAG之LlaMAIndex:llama-index(一块轻快构建索引来查询本地文档的数据框架神器)的简介、安装、使用方法之详细攻略

[第三步,解析第一个 PDF 文件](#第三步,解析第一个 PDF 文件)

[第四步,将解析器集成为 SimpleDirectoryReader 中的默认 PDF 加载器:](#第四步,将解析器集成为 SimpleDirectoryReader 中的默认 PDF 加载器:)

llama-parse的案例应用


llama- parse 的简介

2024年4月15日正式发布,LlamaParse 是由 LlamaIndex 创建的一个 API,用于高效解析和表示文件,以便使用 LlamaIndex 框架进行高效检索和上下文增强。

LlamaParse 可以直接与 LlamaIndex 集成。免费计划每天最多处理 1000 页。付费计划每周免费处理 7000 页,超过部分每页收费 0.3 美分。

llama- parse 的安装和使用方法

1、安装

复制代码
pip install -i https://mirrors.aliyun.com/pypi/simple llama-parse

pip install -i https://mirrors.aliyun.com/pypi/simple -qU llama-parse

-q:这个参数表示安静模式(quiet),它会减少输出的信息,只显示错误信息。

-U:这个参数表示升级模式(upgrade),它会升级指定的软件包到最新版本。

2、使用方法

第一步,获取API 密钥

首先,登录并从 LlamaCloud 获取一个 API 密钥。

第二步,安装LlamaIndex、LlamaParse

然后,确保你安装了最新版本的 LlamaIndex。

注意:如果你是从 v0.9.X 升级,我们建议你遵循我们的迁移指南,并且先卸载之前的版本。

复制代码
pip uninstall llama-index  # 如果从 v0.9.x 或更早版本升级,请运行此命令
pip install -U llama-index --upgrade --no-cache-dir --force-reinstall

最后,安装 LlamaParse 包:
pip install llama-parse
LLM之RAG之LlaMAIndex:llama-index(一块轻快构建索引来查询本地文档的数据框架神器)的简介、安装、使用方法之详细攻略

LLM之RAG之LlaMAIndex:llama-index(一块轻快构建索引来查询本地文档的数据框架神器)的简介、安装、使用方法之详细攻略_llamaindex原理-CSDN博客

第三步,解析第一个 PDF 文件

现在你可以运行以下代码来解析你的第一个 PDF 文件:

python 复制代码
现在你可以运行以下代码来解析你的第一个 PDF 文件:
import nest_asyncio
nest_asyncio.apply()
from llama_parse import LlamaParse

parser = LlamaParse(
    api_key="llx-...",  # 也可以在环境变量中设置为 LLAMA_CLOUD_API_KEY
    result_type="markdown",  # 可以选择 "markdown" 或 "text"
    num_workers=4,  # 如果传递多个文件,则在 `num_workers` 个 API 调用中拆分
    verbose=True,
    language="en",  # 可以选择定义语言,默认=en
)

# 同步解析单个文件
documents = parser.load_data("./my_file.pdf")
# 同步解析多个文件
documents = parser.load_data(["./my_file1.pdf", "./my_file2.pdf"])
# 异步解析单个文件
documents = await parser.aload_data("./my_file.pdf")
# 异步解析多个文件
documents = await parser.aload_data(["./my_file1.pdf", "./my_file2.pdf"])
与 SimpleDirectoryReader 一起使用

第四步,将解析器集成为 SimpleDirectoryReader 中的默认 PDF 加载器:

python 复制代码
第四步,将解析器集成为 SimpleDirectoryReader 中的默认 PDF 加载器:
import nest_asyncio
nest_asyncio.apply()

from llama_parse import LlamaParse
from llama_index.core import SimpleDirectoryReader

parser = LlamaParse(
    api_key="llx-...",  # 也可以在环境变量中设置为 LLAMA_CLOUD_API_KEY
    result_type="markdown",  # 可以选择 "markdown" 或 "text"
    verbose=True,
)

file_extractor = {".pdf": parser}
documents = SimpleDirectoryReader(
    "./data", file_extractor=file_extractor
).load_data()
SimpleDirectoryReader 的完整文档可以在 LlamaIndex 文档中找到。

llama- parse 的案例应用

持续更新中......

相关推荐
学测绘的小杨9 小时前
CompassFusion:一个从 GNSS 到 GNSS/INS 组合导航的独立工程包
python
zzzzzz31015 小时前
当产品经理说这个很简单:我用Python自动化处理奇葩需求的实战指南
python·pycharm·产品经理
雪隐16 小时前
个人电脑玩AI-06让5060 Ti给你打工——不光能画画,Qwen3-TTS还能学人说话,连我老板都信了!
人工智能·后端·python
兵慌码乱1 天前
面向桌面端的资产管理系统分层架构设计与核心模块实现
python·系统架构·sqlite·pyqt5·数据库设计·桌面应用开发·mvc架构
hboot1 天前
AI工程师第三课 - 机器学习基础
python·scikit-learn·kaggle
顾林海1 天前
Agent入门阶段-编程基础-Python:流程控制
python·agent·ai编程
呱呱复呱呱1 天前
Django CBV 源码解读:一个请求是怎么找到你的 get() 方法的
python·django
曲幽2 天前
刚部署的 LibreTranslate 频频翻车?我掏出了 20 年前的 StarDict 词典,用 FastAPI 搭了个本地词典翻译 API
python·fastapi·web·translate·goldendict·libretranslate·stardict·pystardict
荣码2 天前
用Streamlit给AI应用套个界面,10行代码出Web页面
java·python
兵慌码乱2 天前
基于Python+PyQt5+SQLite的药房管理系统实现:事务一致性与界面解耦全流程解析
python·sqlite·信号与槽·pyqt5·数据库设计·桌面应用开发·事务处理