Azure Document Intelligence(以前称为 Form Recognizer)是一项云服务,可用于从文档中提取文本、键值对、表等信息。下面是一个使用 Python SDK 进行文档转换和提取信息的基本示例。
1. 安装依赖
首先,你需要安装 azure-ai-formrecognizer
库,可以使用以下命令进行安装:
登录后复制
plain
pip install azure-ai-formrecognizer
2. 示例代码
下面的代码展示了如何使用 Document Intelligence 来分析一个文档(例如 PDF 或图像)并提取信息。
3. 代码说明
- 导入必要的库 :导入
azure.ai.formrecognizer
库中的DocumentAnalysisClient
和AzureKeyCredential
。 - 创建客户端 :使用你的 Azure Document Intelligence 端点和密钥创建
DocumentAnalysisClient
实例。 - 开始分析 :使用
begin_analyze_document_from_url
方法开始分析文档。这里使用了预构建的prebuilt-document
模型,它可以识别文档中的文本、键值对和表格。 - 处理结果:打印提取的文本、键值对和表格。
- 异常处理:捕获并处理可能出现的异常。
4. 环境变量设置
你需要设置两个环境变量:
AZURE_FORM_RECOGNIZER_ENDPOINT
:你的 Azure Document Intelligence 端点。AZURE_FORM_RECOGNIZER_KEY
:你的 Azure Document Intelligence 密钥。
可以使用以下命令在 Linux 或 macOS 上设置环境变量:
登录后复制
plain
export AZURE_FORM_RECOGNIZER_ENDPOINT="your-endpoint"
export AZURE_FORM_RECOGNIZER_KEY="your-key"
在 Windows 上,可以使用以下命令:
登录后复制
plain
$env:AZURE_FORM_RECOGNIZER_ENDPOINT="your-endpoint"
$env:AZURE_FORM_RECOGNIZER_KEY="your-key"
请确保将 "your-endpoint"
和 "your-key"
替换为你自己的实际值。